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本 书 全 面 总 结 了 不 确定 数据 环境 下 频繁 模式 挖掘 领域 的 主要 研究 成 果 , 从 数据 模型 .问题 定义 、 常 用 算法 等 方面 
系统 介绍 不 确定 频繁 项 集 挖掘 ,不 确定 序列 模式 挖掘 \ 不 确定 频繁 子 图 模式 挖掘 、 不 确定 高 效用 项 集 挖掘 和 不 确定 加 
权 频 繁 项 集 挖掘 技术 。 重 点 针对 两 类 典型 的 不 确定 数据 , 即 概率 数据 和 容错 数据 ,进行 概率 频繁 模式 挖掘 和 近似 频繁 
模式 挖掘 的 研究 ,并 应 用 于 传统 中 医药 数据 环境 下 ,从 主观 不 确定 性 和 客观 不 确定 性 两 个 方面 提出 相应 的 解决 方案 ， 
实现 基于 不 确定 数据 的 高 效 频繁 模式 挖掘 ,并 通过 实验 验证 了 它们 的 有 效 性 和 实用 人 性 。 

本 书 主要 面向 对 数据 挖掘 和 机 器 学 习 感 兴趣 的 科研 人 员 和 学 生 ,特别 适合 从 事 不 确定 数据 挖掘 ` 频 繁 模式 挖掘 和 
关联 规则 发 现 以 及 相关 研究 领域 的 广大 科技 工作 者 和 研究 人 员 使 用 ,也 可 以 作为 数据 挖掘 和 机 器 学 习 相关 课程 的 教 
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大 数据 时 代 悄 然 到 来 ,数据 挖掘 技术 正面 临 着 前 所 未 有 的 机 遇 和 挑战 。 作 为 数据 控 
掘 领域 的 重要 研究 课题 ,频繁 模式 挖掘 和 关联 规则 发 现 受 到 持续 而 广泛 的 关注 ,并 且 涌 现 
大 量 经 典 理论 .高 效 算法 和 新 兴 应 用 领域 。 挖 掘 频繁 项 集 是 关联 规则 发 现 中 的 关键 技术 
和 步骤 ,其 决定 了 关联 规则 发 现 过 程 的 总 体 性 能 ,目前 已 广泛 应 用 于 市 场 销售 、 文 本 挖掘 
和 公众 健康 等 领域 。 

在 实际 应 用 中 ,由 于 技术 手段 有 限 、 测 量 设备 误差 通信 开销 限制 和 用 户 隐 私 保护 等 
诸多 因素 的 影响 ,获得 的 原始 数据 往往 存在 不 确定 性 。 同 时 ,受到 主客 观 条 件 的 限制 , 频 
繁 模 式 挖掘 过 程 中 也 会 带 来 一 系列 的 不 确定 性 ,这 些 不 确定 性 在 挖掘 过 程 中 不 断 传播 和 
积累 ,可 能 导致 挖掘 出 的 知识 与 真实 结果 之 间 存 在 较 大 误差 甚至 毫 无 意义 。 传 统 的 挖掘 
方法 未 将 这 些 因 素 考 虑 进去 ,只 简单 地 认为 挖掘 出 的 知识 一 般 都 是 有 用 的 和 确定 的 ,致使 
传统 的 频繁 模式 挖掘 方法 在 处 理 不 确定 数据 时 面临 着 得 到 的 挖掘 结果 异常 却 难以 解释 的 
容 态 。 这 显然 是 不 科学 和 不 妥当 的 。 因 此 ,针对 不 确定 频繁 模式 挖掘 的 研究 显得 尤为 重 
要 ,并 日 益 受 到 广大 研究 人 员 的 关注 。 

本 书 主要 针对 两 类 典型 的 不 确定 数据 ( 即 概率 数据 和 容错 数据 ) 进 行 概率 频繁 模式 挖 
据 和 近似 频繁 模式 挖掘 的 研究 ,并 应 用 在 中 医药 诊疗 数据 环境 下 ,实现 基于 不 确定 数据 的 

本 书 的 主要 工作 和 成 果 总 结 如 下 。 

(1) 研究 了 实际 应 用 中 常见 的 各 种 不 确定 数据 ,分 析 了 数据 不 确定 性 产生 的 原因 。 
综述 了 目前 常用 的 不 确定 数据 模型 和 主要 的 不 确定 频繁 模式 挖掘 算法 ,包括 不 确定 频繁 
项 集 挖 据 \、 不 确定 序列 模式 挖 据 \、 不 确定 频繁 子 图 挖 据 、 不 确定 高 效用 项 集 挖掘 和 不 确定 
加 权 频 繁 项 集 挖掘 技术 ,总结 了 各 种 不 确定 频繁 模式 挖掘 技术 的 优 缺点 ,并 指出 未 来 可 能 
的 发 展 方向 。 
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(2) 针对 概率 数据 中 垂直 格式 的 数据 表示 形式 ,提出 一 种 基于 Eclat 框架 的 概率 频繁 
项 集 精确 挖掘 算法 (UBEclat)。 首 先 , 对 于 采用 垂直 数据 格式 的 概率 数据 ,设计 了 一 种 适 
用 于 Eclat 框架 , 间 在 提高 算法 执行 效率 的 双向 排序 策略 ;然后 ,基于 概率 频 度 的 定义 , 提 
出 采用 分 而 治之 方法 的 概率 频繁 项 集 精 确 挖掘 算法 。 在 基准 数据 集 和 真实 数据 集 上 的 对 
比 实验 表明 ,UBEclat 算法 能 够 依据 支持 度 的 概率 分 布 ,准确 挖掘 出 所 有 概率 频繁 项 集 。 
这 为 有 效 解决 概率 频繁 项 集 的 精确 挖掘 问题 提供 了 新 的 思路 。 

(3) 针对 概率 频繁 项 集 精 确 挖掘 算法 执行 效率 较 低 .运行 时 间 过 长 的 问题 ,基于 概率 
数据 的 可 能 性 理论 ,提出 一 种 高 效 的 概率 频繁 项 集 近 似 挖 掘 算法 (NDUEclat)。 结 合 
Eclat 框架 和 近似 方法 的 优势 ,NDUEclat 算法 采用 分 而 治之 的 方法 ,应 用 大 数 定律 优化 
挖掘 过 程 ,改进 了 频繁 项 集 挖掘 的 效率 。 在 基准 数据 集 和 真实 数据 集 上 的 多 组 对 比 实验 
也 验证 了 该 算法 具有 良好 的 挖掘 性 能 。 目 前 ,这 也 是 第 一 个 基于 支持 度 的 概率 分 布 ,在 垂 
直 数 据 格式 的 概率 数据 中 高 效 挖掘 不 确定 频繁 项 集 的 近似 算法 。 

(4) 针对 NP-hard 类 的 容错 频繁 模式 挖掘 问题 ,提出 一 种 将 容错 数据 库 映 射 为 事务 
信息 系统 、 基 于 粗糙 集 理论 挖掘 近似 频繁 模式 的 新 方法 。 依 据 挖 气 出 的 频繁 项 目 确定 决 
策 表 中 的 决策 属性 ;基于 粗糙 集 理 论 中 上 近似 和 下 近似 概念 ,确定 近似 频繁 模式 的 匹配 程 
度 。 在 基准 数据 集 和 真实 数据 集 上 进行 的 对 比 实验 证 实 了 该 方法 在 挖 据 的 准确 率 指标 
上 , 比 以 往 方法 有 更 好 的 性 能 表现 。 显然, 基于 粗糙 集 理论 的 近似 挖掘 方法 为 有 效 提高 近 
似 频 繁 模式 挖掘 的 准确 性 和 适用 性 提供 了 新 的 思路 。 

(5) 以 减少 敏感 参数 设置 的 影响 、 提 高 挖掘 效率 的 同时 保证 实际 挖掘 结果 的 可 用 性 
为 目的 ,研究 了 基于 容错 数据 的 粗糙 集 理论 ,提出 一 种 挖掘 近似 频繁 闭 模式 的 新 模型 。 新 
模型 主要 由 三 部 分 组 成 : 用 聚 类 算法 完成 数据 预 处 理 ; 对 同一 类 中 的 事务 依据 粗糙 集 理 
论 进行 属性 约 简 生成 核 模 式 ; 将 核 模 式 作 为 初始 种 子 构建 等 价 类 ,用 分 而 治之 的 方法 挖掘 
近似 频繁 闭 模 式 。 传 统 中 医药 数据 集 的 实验 结果 表明 ,该 模型 可 以 更 精准 地 表达 近似 频 
繁 模式 ,有 利于 实现 基于 中 医 诊疗 应 用 的 知识 发 现 。 

综 上 所 述 , 本 书 针对 概率 数据 中 如 何 提高 频繁 模式 挖掘 的 效率 、 如 何 屏 项 容错 数据 中 
因数 据 表达 不 准确 而 对 挖掘 结果 造成 的 影响 ,以 及 如 何 确 定 容错 率 以 获得 有 意义 的 挖掘 
结果 等 问题 ,从 数据 库 的 特点 和 数据 的 表示 方式 .模式 挖掘 的 类 型 .具体 挖掘 技术 的 选择 


等 几 个 不 同 的 角度 提出 相应 的 解决 方案 ,并 通过 实验 验证 了 它们 的 有 效 性 。 本 书 的 工作 


可 以 为 今后 面向 不 确定 数据 的 频繁 模式 挖 据 研 究 提供 帮助 。 


本 书 是 作者 在 密切 跟踪 该 技术 领域 研究 成 果 的 基础 上 总 结 而 成 ,是 一 本 全 面 论述 不 
确定 频繁 模式 挖掘 方法 的 著作 。 本 书 图 文 并 茂 , 深 入 浅 出 ,可 读 性 强 ,并 将 理论 与 实践 有 
机 结合 ,以 期 为 读者 进一步 学 习 、 研 究 和 应 用 打下 基础 。 不 确定 频繁 模式 挖掘 是 一 个 复杂 
的 热点 问题 ,本 书 在 撰写 的 过 程 中 参考 了 大 量 国内 外 相关 文献 ,直接 引用 的 有 数 百 篇 。 在 


此 ,向 相关 作者 表示 衷心 的 感谢 。 
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1.1 不 确定 数据 挖掘 


1989 年 举行 的 第 十 一 届 国 际 联合 人 工 智 能 学 术 会 议 上 ,Gregory Piatetsky-Sharpiro 
正式 提出 知识 发 现 (Knowledge Discovery in Database, KDD) 和 数据 挖掘 (Data Mining, 
DM) 的 概念 。 数 据 挖掘 作 为 知识 发 现 过 程 的 基本 步骤 ,是 指 应 用 各 种 算法 从 大 量 的 、 不 
完全 的 ` 有 噪声 的 、 模 糊 的 、 随 机 的 数据 库 中 提取 隐 含 在 其 中 的 人们 事先 不 知道 的 但 又 是 
潜在 有 用 的 普遍 数据 特征 ,发 现 隐 含 在 数据 库 中 的 ,用户 感 兴趣 的 信息 和 知识 的 过 程 。 其 
目的 是 帮助 决策 者 分 析 历史 数据 和 当前 数据 ,搜寻 复杂 数据 中 隐藏 的 规则 、 概 念 、 关 系 、 模 
式 和 规律 等 。 数 据 挖掘 广泛 应 用 在 信息 管理 .查询 优化 .决策 支持 .过 程控 制 等 领域 ,还 可 
以 用 于 数据 自身 的 维护 。 

随 着 数据 获取 手段 的 自动 化 程度 不 断 提高 ,人 们 得 到 的 数据 量 呈 指数 级 增长 ,致使 现 
有 的 数据 分 析 处 理工 具 在 能 力 上 明显 不 足 ,决策 者 急需 高 效 的 分 析 处 理工 具 从 海量 数据 
中 提取 出 有 价值 的 信息 ,摆脱 “数据 丰 富 ,信息 贫乏 ”的 尴 众 局 面 。 因 此 ,数据 挖掘 成 为 信 
息 领 域 的 一 个 重要 研究 课题 中。 

目前 , 越 来 越 多 的 证 据 显 示 ,客观 世界 中 绝 大 部 分 现象 是 不 确定 的 。 随 着 不 确定 性 研 
究 的 深入 ,世界 的 不 确定 性 特征 得 到 学 术 界 的 普遍 认可 。 实 际 上 ,所 谓 确定 的 、 规 则 的 现 
象 , 只 是 在 一 定 前 提 和 特定 边界 条 件 下 的 显现 ,只 能 在 局 部 或 者 较 短 的 时 间 内 存在 。 因 
此 ,进入 21 世纪 后 ,不 确定 性 问题 的 研究 得 到 越 来 越 多 的 关注 。 

不 确定 数据 广泛 出 现在 各 种 应 用 领域 ,如 传感器 网 络 、.RFID 应 用 、 数 据 集 成 .隐私 保 
护 、Web 应 用 等 。 原 始 数据 中 产生 不 确定 性 的 原因 可 以 归结 为 如 下 两 种 情况 。 一 种 情况 
是 由 于 客观 条 件 限制 而 产生 不 确定 数据 。 因 为 技术 手段 有 限 、 测 量 设备 误差 以 及 通信 开 
销 等 诸多 要 素 的 影响 ,可 以 获得 的 原始 数据 中 往往 包含 着 噪声 或 错误 。 这 些 噪声 或 错误 
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数据 的 规律 性 弱 ,可 预测 性 差 , 甚 至 可 有 可 无 。 于 是 人 们 可 能 会 使 用 概率 值 来 描述 数据 取 
值 的 多 种 可 能 或 数据 测量 值 的 准确 程度 中。 这 就 引入 了 不 确定 数据 。 另 一 种 情况 是 因 
为 主观 条 件 的 影响 造成 数据 产生 不 确定 性 。 有 时 是 顾虑 用 户 隐私 保护 的 需求 而 进行 人 为 
的 数据 扰动 ,有 时 是 对 真实 情况 没有 十 足 的 把 握 , 需 要 引入 概率 值 来 描述 对 当前 数据 的 多 
种 解释 或 多 种 可 能 ,从 而 造成 了 数据 不 确定 性 的 普遍 存在 。 

与 传统 确定 数据 的 表示 方式 不 同 , 不 确定 数据 的 特点 是 每 个 数据 对 象 不 是 单个 数据 
点 ,而 是 按照 概率 在 多 个 数据 点 上 出 现 。 显 然 ,数据 的 不 确定 性 对 挖掘 结果 产生 了 不 可 忽 
视 的 影响 。 传 统 的 针对 确定 数据 的 挖掘 算法 已 经 不 能 满足 现实 应 用 的 迫切 需求 ,因此 专 
门 针对 不 确定 数据 挖掘 技术 的 研究 工作 十 分 必要 。 近 年 来 ,不 确定 数据 挖掘 问题 成 为 重 
要 的 研究 热点 。 

不 确定 数据 挖掘 是 现 有 数据 处 理 技 术 在 不 断 发 展 过 程 中 面临 的 新 课题 外。 目前 , 关 
于 不 确定 数据 挖掘 技术 的 研究 包括 分 类 、 聚 类 、 频 繁 模式 挖掘、 关联 规则 发 现 、 异 常 检测 
等 中 。 在 这 些 不 确定 数据 挖掘 技术 中 ,频繁 模式 挖 气 作 为 关联 规则 发 现 的 关键 步 又 ,对 任 
务 完 成 的 成 功 和 实现 效率 起 着 举足轻重 的 作用 ;关联 规则 发 现 /频繁 模式 挖掘 也 可 以 用 于 
解决 聚 类 或 分 类 问题 ,完成 关联 聚 类 或 关联 分 类 任务 ;游离 于 频繁 模式 之 外 的 罕见 模式 本 
质 上 可 以 看 作 是 异常 对 象 ,因此 异常 检测 问题 又 可 以 看 作 关联 规则 发 现 / 频 繁 模式 挖掘 问 
题 的 对 偶 问 题 ,基于 逆向 频繁 模式 挖掘 思想 发 现 异 常 模式 也 是 解决 异常 检测 问题 的 有 效 
方案 。 基 于 上 述 几 种 不 确定 数据 挖掘 任务 之 间 的 密切 联系 和 频繁 模式 挖掘 技术 的 基础 性 
作用 ,面向 不 确定 数据 的 频繁 模式 挖掘 技术 研究 成 为 目前 最 重要 的 研究 课题 之 一 。 因 此 ， 
在 本 书后 面 的 章节 中 ,主要 任务 是 研究 能 够 满足 实际 应 用 需求 的 不 确定 频繁 模式 挖掘 
问题 。 


1.2 不 确定 频繁 模式 挖掘 研究 背景 
频繁 模式 挖掘 问题 是 数据 挖掘 领域 中 被 广泛 研究 的 问题 之 一 。 长 期 以 来 ,以 牛顿 理 


论 为 代表 的 确定 性 科学 ,创造 了 对 客观 世界 进行 精确 描绘 的 方法 。 在 此 基础 上 ,传统 的 数 
据 库 应 用 认为 数据 的 存在 性 和 精确 性 确凿 无 疑 。 因 此 ,传统 的 频繁 模式 挖 握 技 术 依靠 支 
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持 度 作为 项 集 出 现 频繁 程度 的 唯一 度量 。 当 一 个 项 集 的 支持 度 达 不 到 最 小 支持 度 阔 值 ， 
这 个 项 集 就 被 丢弃 。 然 而 ,在 实际 应 用 中 , 当 数 据 受 到 噪声 、 错 误 等 不 确定 因素 影响 时 , 传 
统 的 频繁 模式 挖掘 方法 面临 着 巨大 挑战 。 

作为 数据 挖掘 的 重要 技术 ,针对 不 确定 数据 的 频繁 模式 挖掘 和 关联 规则 发 现 因 其 固 
有 的 优势 受到 研究 人 员 的 青睐 "3 ,目前 已 广泛 应 用 于 市 场 销售 文本 挖掘 .公众 健康 等 领 
Sah E810) 。 其 中 ,面向 不 确定 数据 的 频繁 模式 挖掘 研究 在 医学 诊断 与 生物 信息 学 领域 的 应 
用 受到 科研 工作 者 的 格外 关注 时。 例如 ,在 医学 诊断 中 ,根据 患者 描述 的 病情 ,医生 很 
ME 100% 确 诊 , 因 而 常常 以 一 定 的 概率 推断 病人 患 有 不 同 疾病 的 可 能 性 。 特 别 是 在 中 医 
学 证 候 分 析 药物 配伍 规律 分 析 等 研究 中 2 , 源 于 中 医学 辩证 诊疗 的 行业 特点 ,其 中 隐 
含 的 不 确定 性 也 更 为 明显 55 。 若 使 用 传统 的 频繁 模式 挖掘 方法 处 理 这 些 不 确定 数据 ,经 
常 面临 着 得 到 的 挖掘 结果 异常 并 难以 解释 的 窘 态 。 现 实 世 界 中 的 海量 数据 日 新 月 异 , 它 
们 在 产生 过 程 中 伴随 着 大 量 的 噪声 .丢失 值 .错误 和 不 一 致 等 不 确定 性 问题 。 由 于 实际 应 
用 中 收集 .累积 的 不 确定 数据 快速 增长 ,分 析 和 管理 如 此 大 量 的 复杂 数据 已 经 成 为 极 大 的 
技术 挑战 。 

国内 外 许多 研究 人 员 和 组 织 机 构 对 数据 挖掘 ,特别 是 针对 特定 数据 的 频繁 模式 挖掘 
及 其 相关 问题 有 着 浓厚 的 兴趣 。 例 如 ,从 1997 年 开始 ,ACM 数据 挖掘 及 知识 发 现 专 委 会 
(SIGKDD) 每 年 主办 一 次 国际 知识 发 现 和 数据 挖掘 竞赛 (KDD Cup)59 。 该 竞赛 已 经 成 
为 数据 挖掘 领域 的 国际 顶级 赛事 。KDD Cup 历年 的 比赛 题目 取 自 不 同 的 数据 领域 ,并 具 
有 很 强 的 应 用 背景 。 作 为 公认 的 数据 处 理 领 域 最 高 水 平 的 赛事 之 一 ,历年 竞赛 中 所 用 的 
数据 也 成 为 数据 挖掘 从 业者 开展 科研 和 进行 开发 的 良好 训练 数据 。 此 外 ,著名 的 数据 挖 
掘 会 议 ,如 SIGKDD、ICDM、SDM、EDBT 等 也 经 常 收录 关于 频繁 模式 挖掘 理论 及 应 用 方 
面 的 研究 成 果 , 其 他 如 SIGMOD, VLDB, ICDE 等 数据 库 类 会 议 也 有 专门 的 数据 挖掘 分 会 
针对 频繁 模式 挖掘 展开 讨论 。 而 且 , 著 名 的 数据 挖掘 专家 韩 家 炜 教授 及 其 一 众 弟子 ,至 今 
一 直 引 领 着 国内 外 学 者 致力 于 频繁 模式 挖掘 及 关联 规则 发 现 的 相关 研究 与 应 用 。 

图 1.1 和 图 1.2 显示 了 近 十 年 来 在 Elsevier 电子 数据 库 上 发 表 的 关于 “不 确定 频繁 
模式 ”和 * 不 确定 数据 挖掘 ?论文 的 统计 数据 。 从 两 图 中 可 以 看 到 不 确定 频繁 模式 挖掘 研 
究 的 发 展 趋势 : 随 着 大 数据 研究 的 持续 升温 ,新 问题 .新 技术 不 断 涌现 ,大 数据 挖掘 和 不 
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确定 频繁 模式 挖掘 的 研究 也 有 逐步 上 升 的 趋势 。 
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图 1.1 Elsevier 电子 数据 库 近 十 年 “不 确定 频繁 模式 ”论文 的 发 表 趋势 
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图 1.2 Elsevier 电子 数据 库 近 十 年 “不 确定 数据 挖掘 ?论文 的 发 表 趋势 
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当前 的 科研 成 果 显 示 ,在 不 确定 数据 环境 下 , 若 使 用 传统 的 频繁 模式 挖掘 方法 实施 控 
掘 任务 ,得 到 的 往往 是 大 量 的 无 实际 意义 的 频繁 模式 片段 ,而 无 法 发 现 潜在 的 真正 有 用 的 
长 频繁 模式 ,导致 挖掘 出 的 知识 存在 较 大 偏差 甚至 毫 无 意义 CD] 。 为 了 正确 ,高 效 地 处 理 
由 于 客观 原因 导致 的 数据 不 确定 性 ,科研 工作 者 引入 和 发 展 了 容错 频繁 模式 挖掘 技术 ;为 
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了 解决 由 于 主观 因素 造成 的 数据 不 确定 性 问题 ,针对 不 确定 数据 的 频繁 模式 挖掘 技术 应 
运 而 生 。 除 了 由 于 原始 数据 中 的 不 确定 性 描述 而 引入 的 不 确定 数据 问题 ,数据 挖掘 过 程 
中 也 会 带 来 一 系列 的 不 确定 性 ,这些 不 确定 性 在 数据 挖掘 过 程 中 会 不 断 传播 和 积累 。 若 
使 用 传统 的 频繁 模式 挖掘 方法 ,人 们 无 法 预测 挖掘 结果 的 正确 程度 ,只 能 简单 地 认为 挖掘 
出 的 知识 都 是 有 用 的 和 确定 的 。 这 显然 是 不 科学 和 不 妥当 的 Ps 。 

综合 数据 中 存在 不 确定 性 的 可 能 原因 ,大 致 可 以 归结 为 两 种 情况 : 主观 原因 引入 的 
不 确定 性 和 客观 原因 导致 的 不 确定 性 。 本 书 主要 针对 上 述 两 类 典型 的 不 确定 数据 展开 研 
BE ,探索 概率 频繁 模式 挖掘 和 容错 频繁 模式 挖掘 技术 ,为 进一步 的 关联 规则 发 现 提供 
依据 。 


1.3 相关 工作 


论 研 究 和 实际 应 用 中 所 说 的 频繁 模式 ,通常 是 指 以 较 高 频率 出 现在 数据 库 中 的 项 
ee UAM 
XE DA tz] SE FERE BLE Cmin_sup®) 4238 Sil 2 BE SCR BAAS i SR A EE BUR MA 
指定 数据 中 挖掘 出 的 频繁 模式 大 致 分 为 以 下 几 类 : 完整 的 频繁 项 集 ADEL UTE ie AK 
繁 项 集 、Top-k 频繁 模式 和 近似 频繁 模式 等 。 这 里 ,挖掘 完整 的 频繁 项 集 是 最 基本 的 方 
法 。 其 他 四 类 频繁 模式 是 完整 频繁 项 集 的 压缩 版 本 。 其 中 ,频繁 闭 项 集 是 频繁 项 集 的 无 
损 压缩 集合 ,而 最 大 频繁 项 集 、Top-k 频繁 模式 和 近似 频繁 模式 都 是 频繁 项 集 的 有 损 压缩 
集合 。 

实际 上 ,挖掘 频繁 项 集 的 完全 集合 是 一 项 非常 耗费 时 间 和 空间 资源 的 大 工程 ,特别 是 
当面 对 稠密 数据 库 时 ,挖掘 出 的 频繁 项 集 数 目 巨 大 ,这 对 计算 机 性 能 是 严峻 的 考验 。 
此 ,在 许多 实际 应 用 中 ,人 们 更 倾向 于 挖掘 出 全 部 频繁 项 集 的 子 集 或 频繁 项 集 的 近似 集 

。 为 了 进一步 减少 挖掘 结果 中 产生 的 频繁 模式 数量 ,只 显示 高 质量 的 频繁 模式 ,常常 将 
nen jii EE ELS E — 2b Ft fal AU A AFA Top-k BK REO Top-k 近似 频繁 模 





(D min sup: 在 传统 数据 库 中 ,min_sup 38 6 T8 a OY Sc Fr EE BE BUE A 1E ECCL min. sup ND. 
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BROT .近似 频繁 闭 模式 号 等 。 
下 面 分 类 介绍 各 种 具有 代表 性 的 频繁 模式 挖掘 技术 。 


1.3.1 完整 的 频繁 项 集 挖掘 

1993 年 ,Agrawal 等 首先 提出 了 传统 数据 集中 的 频繁 模式 挖掘 问题 5 。 二 十 多 年 
来 ,国内 外 科研 人 员 在 此 领域 进行 了 深入 研究 ,提出 了 各 种 算法 和 策略 3 中 。 这 些 算 法 总 
是 基于 如 下 假设 : 要 研究 的 数据 是 确定 的 ,并 且 只 要 待考 虑 的 数据 库 中 ,项 集 的 支持 度 不 
小 于 给 定 的 最 小 支持 度 阔 值 , 这 个 项 集 就 是 频繁 的 。 

MARE 给 定 事务 数据 库 D=(T,T) ,其 中 TI 一 (人 ,za ,insx} 是 所 有 项 目的 集 
合 ,T 王 全 ,tv} 是 所 有 事务 的 集合 。 每 个 事务 t; 包含 的 项 目 集合 一 定 是 工 的 
子 集 , 即 若 XST, 则 X 是 一 个 项 集 。 如 果 一 个 项 集 包含 个 项 目 , 则 称 为 ke GE. af 
是 不 包含 任何 项 目的 集合 。 项 集 的 一 个 重要 性 质 是 它 的 支持 度 , 即 所 有 事务 中 包含 特定 
项 集 的 数目 。 在 数学 上 ,项 集 X 的 支持 度 sup(X) 可 以 表示 为 

sup(X) 一 | (5 | X& t.t € T) | (n) 

Jul S HET AE AY Sc EHE AS IRF Sie) Sc FF E BL ff min_sup, 则 称 该 项 集 为 频繁 项 集 。 给 
AE Biz] SAF BE BR EE ZET AE F a AAE 5 A He GROS LECHE ECHO ICT: min 
sup 的 所 有 项 集 。 

经 典 的 频繁 项 集 挖掘 算法 主要 包括 A priori?! 、FP-growthc2 和 Eclat 15:3: ,其 他 算 
法 大 多 可 以 归 类 为 这 三 种 经 典 算法 的 变种 。 

在 传统 的 频繁 项 集 挖掘 算法 中 ,第 一 步 操作 几乎 都 是 相同 的 , 即 首先 扫描 事务 数据 
PE ,计算 每 个 项 目的 支持 度 并 与 最 小 支持 度 阔 值 比较 ,发 现 频繁 项 目 ( 也 称 为 单元 素 频 繁 
项 集 ) 的 同时 去 除非 频繁 项 目 。 接 下 来 , Apriori、FP-growth 和 Eclat 算法 都 采用 自 底 向 
上 的 方式 完成 搜索 空间 的 遍历 。 因 为 目前 的 研究 成 果 证 明 ,在 挖掘 完整 的 频繁 项 集 时 , 自 
底 向 上 的 搜索 算法 比 自 顶 向 下 或 自 中 间 向 两 端的 搜索 方法 更 有 效 。 同 时 ,三 种 经 典 的 频 
繁 项 集 挖 气 算 法 都 会 使 用 Apriori 先 验 性 质 (也 称 为 反 单 调 性 ) 缩 小 搜索 空间 ,提高 挖掘 
效率 。 

Apriori 先 验 性 质 " 涩 如果 一 个 项 集 是 频繁 的 , 则 它 的 所 有 子 集 一 定 也 是 频繁 的 。 因 为 
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如 果 项 集 工 不 满足 最 小 支持 度 阔 值 min_sup, 则 了 不 是 频繁 的 , 即 sup(1)<min_sup. Tf 
项 集 X 添加 到 项 集 工 后 ,得 到 的 项 集 IU X 不 可 能 比 工 更 频繁 。 因 此 ,TIUX 也 不 是 频繁 
的 , 即 supCTUX)<min_sup。 所 以 , 非 频繁 项 集 的 超 集 也 不 是 频繁 的 。 

除了 具有 上 述 共 同 点 之 外 ,Apriori、\FP-growth 和 Eclat 算法 的 搜索 过 程 存在 明显 
区 别 。 

(1) Apriori 算法 是 一 个 宽度 优先 . 逐 层 搜索 的 迭代 算法 。 第 & URE AC EI Rk 
1)- 频 繁 项 集 的 过 程 。 而 Eclat 和 FP-growth 算法 则 是 深度 优先 的 递归 算法 。 给 定 两 个 具 
有 (一 1) 公 共 前 组 的 上 -频繁 项 集 , 通 过 添加 一 个 项 目 作为 后 缀 扩展 得 到 (& 十 1)- 候 选项 
集 , 经 过 层 层 递归 确定 所 有 的 (十 1)- 频 繁 项 集 。 

(2) Apriori 算法 中 候选 项 集 的 定义 与 Eclat 和 FP-growth 算法 中 的 定义 不 同 。 在 
Apriori 算法 中 第 & 次 迭代 时 ,候选 项 集 范 围 划 定 为 到 目前 为 止 发 现 的 频繁 项 集 的 反例 边 
界 。 而 在 Eclat 和 FP-growth 算法 中 ,第 & 次 递归 时 ,候选 项 集 则 是 按 既 定 顺序 排列 的 反 
例 边界 的 子 集 ,其 元 素 拥 有 长 度 为 & 一 1 的 共同 前 级 。 因 此 ,Eclat 和 FP-growth 算法 的 搜 
索 空间 得 到 缩减 。 然 而 ,在 某 些 特定 情况 下 ,也 有 研究 表明 Eclat 和 FP-growth 算法 中 产 
生 的 候选 项 集 数目 不 一 定 少 于 Apriori 算法 中 候选 项 集 的 数目 。 

(3) 使 用 Apriori 和 FP-growth 算法 的 数据 库 采用 水 平 数据 格式 ,而 使 用 Eclat 算法 
的 数据 库 采 用 垂直 数据 格式 。 也 就 是 说 ,在 第 一 遍 扫描 数据 库 找 出 频繁 项 目 之 后 , 若 使 用 
Eclat 算法 , 则 需要 将 数据 库 转换 为 垂直 数据 格式 ,实际 上 ,这 一 数据 转换 操作 耗费 的 计算 
机 资源 微乎其微 。 

目前 ,基于 Apriori 的 改进 算法 主要 考虑 减少 数据 库 的 扫描 次 数 . 产 生 尽 可 能 少 的 候 
选项 集 以 达到 提高 挖掘 效率 ,减少 存储 空间 占用 的 目的 。 而 FP-growth 改进 算法 则 主要 
考虑 减少 构建 FP-tree 的 空间 消耗 , 尽 可 能 地 节省 内 存 。Eclat 算法 的 改进 主要 针对 项 集 
连接 和 比较 过 程 耗 时 较 长 .交叉 计数 效率 较 低 ,以 及 算法 需要 搜索 的 内 存 空间 较 大 等 
问题 。 

由 于 传统 的 Eclat 算法 采用 循环 结构 实现 支持 度 计 数 ,需要 依次 比较 两 个 事务 列表 
中 的 各 个 项 目 并 实现 交 操 作 , 从 而 导致 算法 的 时 间 复 杂 度 随 事务 规模 的 增 大 而 成 倍增 长 ， 
最 终 影 响 了 算法 的 执行 效率 。 
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针对 Eclat 算法 存在 的 问题 ,国内 外 都 出 现 了 一 些 改进 算法 。 文献 [29] 提 出 的 
Hybridset 十 算法 结合 Eclat 和 Diffset 算法 分 别 善于 处 理 稀 芍 和 稠密 数据 集 的 优点 ,充分 
利用 频繁 项 集 的 相关 信息 减少 候选 项 集 支持 度 计 算 阶段 的 时 间 开 销 ; 张 玉 芳 等 c9 结 合 划 
分 思想 并 突出 基于 概率 的 先 验 约束 方法 ,将 事务 划分 为 多 个 非 重 玛 部 分 ,对 每 一 部 分 分 别 
运行 Eclat 算法 ,减少 了 比较 次 数 ;能 忠 阳 等 5 将 散 列 表 与 布尔 矩阵 相 结合 ,提出 了 基于 
散 列 布尔 矩阵 的 Eclat 改进 算法 ,通过 提高 交集 操作 的 执行 效率 ,加 快 频繁 项 集 的 产生 过 
程 ; 傅 向 华 等 5 用 二 进 制 数组 存储 项 目 到 事务 的 倒 排 索引 ,通过 位 运算 获得 项 目的 支持 
JE ,并 采用 深度 优先 搜索 递归 挖掘 上 频繁 项 集 ,提高 了 候选 项 集 生成 以 及 支持 度 计 数 的 效 
率 ; 冯 培 恩 等 563 提出 一 系列 策略 改进 Eclat 算法 的 执行 效率 ,包括 将 后 级 相同 的 项 集 归 为 
同一 等 价 类 以 充分 前 枝 、 引 入 双 层 喻 希 表 加 快 搜索 候选 项 集 子 集 的 速度 、 采 用 项 集 集合 划 
分 链表 以 减少 项 集 连 接 操作 的 比较 判断 ,以 及 设置 事务 标识 失去 阔 值 以 加 快 交 叉 计 数 的 
速度 等 。 


1.3.2 频繁 闭 项 集 挖 掘 

频繁 项 集 的 完全 集合 中 包含 的 元 素 过 多 , 宛 余 现象 严重 ,导致 传统 的 频繁 项 集 控 掘 算 
法 时 空 复杂 度 较 高 ,而 频繁 闭 项 集 既 能 唯一 确定 相应 的 频繁 项 集 又 将 挖掘 结果 的 数据 规 
模 缩小 很 多 。 因 此 ,在 实际 应 用 中 ,从 给 定 事务 数据 库 中 挖掘 相应 的 频繁 闭 项 集 得 到 了 科 
研 工作 者 更 多 的 青睐 %*' 潭 。 这 是 因为 ,作为 频繁 项 集 完 全 集合 中 的 一 个 子 集 , 频 繁 闭 项 集 
与 频繁 项 集 的 完全 集合 在 语义 上 是 相等 的 。 也 就 是 说 ,可 以 从 给 定数 据 库 的 频繁 闭 项 集 
中 推导 出 所 有 频繁 项 集 的 完整 信息 ,而 不 会 丢失 任何 一 个 频繁 模式 。 

频繁 闭 项 集 ”给 定 频繁 项 集 X , 若 不 存在 真 超 项 集 Y, 使 得 Y 与 X 在 事务 数据 库 中 
具有 相同 的 支持 度 计 数 , 则 称 频 繁 项 集 X 是 该 事务 数据 库 中 的 频繁 闭 项 集 。 也 就 是 说 ， 
频繁 闭 项 集 X 是 具有 相同 支持 度 计数 的 最 长 频繁 项 集 , 其 所 有 真子 集 都 是 该 数据 库 中 的 

一 般 来 说 ,挖掘 频繁 闭 项 集 的 过 程 分 为 两 步 : 四 识别 所 有 的 频繁 项 集 。 利 用 频繁 项 
集 的 定义 ,将 项 集 的 支持 度 计数 与 最 小 支持 度 阅 值 相 比较 来 完成 这 一 步骤 ; @ 确 定 该 频 
繁 项 集 是 否 是 闭合 的 。 通 过 检查 该 频繁 项 集 的 超 集 是 否 具有 与 之 相同 的 支持 度 计数 得 以 
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完成 。 

常用 的 频繁 闭 项 集 挖掘 算法 主要 有 A-CLOSEBG9 CHARME” , CLOSET 4-58 以 及 
DCI Closed“), 1999 年 ,Pasquier 等 提出 了 频繁 闭 项 集 挖掘 思想 。 他 们 的 A-CLOSE 
算法 就 是 Apriori 算法 在 频繁 闭 项 集 挖掘 中 的 改进 版 本 ,并 成 功 运 用 了 有 效 的 剪 枝 策略 。 
A-CLOSE 算法 只 计算 上 一 层 产生 的 所 有 最 小 生成 子 并 检验 其 闭合 性 。 这 样 , 无 须 找到 所 
有 的 频繁 项 集 就 可 以 得 到 一 个 精简 的 关联 规则 集合 , 从 而 降低 了 算法 的 时 间 复 杂 度 。 
CHARM 算法 无 须 枚 举 频 繁 项 集 的 所 有 可 能 子 集 ,而 是 使 用 高 效 的 混合 搜索 方法 直接 跳 
过 IT-tree 的 若干 层次 ,在 更 短 时 间 内 识别 出 真正 的 频繁 闭 项 集 。 该 算法 的 优点 是 减少 了 
中 间 计 算 的 存储 占用 ,但 未 解决 频繁 闭 项 集 挖掘 中 的 项 集 宛 余 问 题 。CLOSET 十 算法 首 
先 找到 频繁 项 目 ,然后 划分 出 频繁 闭 项 集 ,并 递归 挖掘 出 频繁 闭 项 集 集合 的 子 集 。 该 算法 
的 成 功 源 于 压缩 给 定 的 事务 数据 库 , 有 效 创 建 了 频繁 闭合 项 目的 条 件数 据 库 ,并 使 用 FP- 
tree 结构 和 剪 枝 技术 进一步 提高 了 算法 的 执行 效率 。DCI Closed 算法 采用 垂直 位 图 的 数 
据 格式 描述 给 定 的 事务 数据 库 , 其 显著 特点 是 在 挖掘 过 程 中 ,内 存 无 须 存储 所 有 的 闭合 项 
集 , 从 而 成 功 解决 了 频繁 闭 项 集 挖掘 中 的 项 集 宛 余 问 题 。 该 技术 也 可 以 应 用 于 所 有 采用 
垂直 数据 格式 的 数据 库 中 ,并 带 来 性 能 的 有 效 提 升 。 目 前 ,该 技术 是 公认 的 有 效 方法 。 在 
国内 , 宋 威 等 提出 了 一 种 基于 索引 数组 和 二 进 制 位 图 技术 的 频繁 闭 项 集 挖 掘 算法 DCI- 
Closed-Index"? 。 该 算法 利用 索引 数组 对 生成 子 的 前 序 集 和 后 序 集 进行 约 简 , 减少 了 候 
选 生成 子 集合 的 包含 判断 , 比 其 他 频繁 闭 项 集 挖 掘 算法 具有 更 优 的 性 能 。 

由 于 挖掘 频繁 闭 项 集 不 仅 显著 减少 了 操作 过 程 中 产生 的 候选 模式 数量 ,并 且 保 持 了 
关于 频繁 项 集 的 完整 信息 ,因此 ,在 实际 应 用 中 ,频繁 闭 项 集 挖掘 方法 得 到 了 更 多 的 青睐 。 


1.3.3 最 大 频繁 项 集 挖掘 

针对 频繁 项 集 完全 集合 的 挖掘 过 程 中 存在 大 量 元 余 项 集 而 导致 算法 时 空 代价 过 高 的 
问题 ,挖掘 最 大 频繁 项 集 是 另 一 种 常用 的 替代 方法 呈 ' 纪 。 

最 大 频繁 项 集 ”给 定 频繁 项 集 X , 若 不 存在 超 集 Y, 使 得 XCY 并 且 Y 在 事务 数据 库 
D 中 是 频繁 的 , 则 称 项 集 X 是 数据 库 D. 中 的 最 大 频繁 项 集 。 

1998 年 ,Bayardo 首先 展开 挖掘 最 大 频繁 项 集 的 研究 工作 并 提出 了 MaxMiner 算 
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法 "中 。 该 算法 基于 Apriori 框架 ,采用 宽度 优先 、 分 层 搜索 的 方法 发 现 最 大 频繁 项 集 ; 同 
时 使 用 超 集 频繁 剪 枝 和 子 集 不 频繁 剪 枝 策略 缩小 搜索 空间 ,提高 挖掘 效率 。Burdick 等 在 
MAFIA 算法 区 中 使 用 垂直 二 进 制 位 图 技术 压缩 事务 索引 表 ,改进 了 支持 度 计数 的 效率 。 
Yang SEH 对 最 大 频繁 项 集 挖掘 过 程 中 最 坏 情 况 下 的 复杂 性 进行 理论 分 析 , 指 出 枚 举 最 
大 项 集 问题 是 NP-hard 问题 。Ramesh 等 "中 刻画 了 频繁 项 集 集合 和 最 大 频繁 项 集 集合 长 
度 的 分 布 , 并 给 出 了 在 事务 数据 库 中 嵌入 这 样 的 频繁 项 集 (或 最 大 频繁 项 集 ) 分 布 需 要 满 
足 的 限制 条 件 。 

实际 上 ,最 大 频繁 项 集 与 频繁 闭 项 集 有 许多 相似 之 处 ,挖掘 频繁 闭 项 集 的 许多 优化 技 
术 可 以 扩展 用 于 挖掘 最 大 频繁 项 集 。 因 此 ,本 书 的 研究 内 容 不 再 重点 关注 最 大 频繁 项 集 
挖掘 问题 。 


1.3.4 Top-k 频繁 模式 挖掘 

当 待 处 理 的 数据 集 过 大 或 者 最 小 支持 度 阔 值 设置 过 小 时 ,挖掘 过 程 中 常常 产生 大 量 
的 候选 项 集 , 致 使 计算 机 陷入 难以 有 效 计 算 和 存储 的 困境 。 此 外 ,当面 对 稠密 数据 库 时 ， 
人 们 时 常 面临 挖掘 结果 过 于 庞大 ,决策 者 难以 分 析 和 利用 的 窒 态 。 因 此 ,在 许多 实际 应 用 
中 ,Top-k 频繁 模式 挖掘 也 是 不 错 的 选择 号 。 

所 谓 Top-k 频繁 模式 ,通常 是 指 最 有 趣 、 最 重要 或 最 长 的 前 上 个 频繁 模式 [9 。 

Wang 等 提出 无 须 min. sup 限制 条 件 的 Top-k 频繁 闭 项 集 控 掘 算法 , 即 TFP 算 
法 5 。 该 算法 在 FP-tree 的 构建 、 随 后 的 挖掘 以 及 FP-tree 条 件 树 剪 枝 阶段 都 采用 逐渐 提 
高 支持 度 阔 值 的 方法 确定 Top-k 频繁 项 集 的 范围 。 此 外 ,该 算法 还 采用 了 两 层 哈 希 索 引 
结构 快速 访问 模式 树 ,并 利用 新 的 闭 项 集 验证 策略 进一步 提高 挖掘 效率 。Chuang 等 在 基 
于 内 存 限制 的 条 件 下 实施 Top- 频繁 ( 闭 ) 模 式 控 气 过程] 。 无 须 指定 敏感 的 挖掘 阔 值 
min_sup ,作者 在 提出 的 MTK 和 MTK-close 算法 中 分 别 设 置 期 望 挖掘 出 的 频繁 ( 闭 ) 模 
式 数 目 & 作为 挖掘 范围 限制 条 件 。 这 两 种 算法 利用 8 阶 搜索 有 效 设置 可 用 内 存 , 检 测 不 
同 长 度 的 候选 模式 ,从 而 减少 了 数据 库 扫 描 次 数 并 获得 更 高 的 挖掘 效率 。 

在 实际 应 用 的 事务 数据 库 中 ,项 集 出 现 情况 的 概率 分 布 并 不 是 均匀 的 ,所 以 ,Top-k 
频繁 模式 并 不 一 定 指 前 & 个 最 具 代 表 性 的 频繁 模式 I。 例如 ,有 一 类 频繁 项 集 压 缩 就 是 
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采用 “汇总 ”的 方式 得 到 上 个 最 能 代表 整个 频繁 项 集 全 集 ( 或 频繁 闭 项 集 ) 的 模式 。 这 里 
表示 包含 & 个 元 素 的 最 紧凑 频繁 模式 压缩 集合 ,在 实际 应 用 中 更 容易 解释 和 使 用 "5 。 
Afrati 提出 用 & 个 项 集 来 近似 频繁 项 集 完 全 集合 的 思想 5 。 其 中 度量 频繁 项 集 近 似 集 合 
的 方法 就 是 个 项 集 能 覆盖 到 的 集合 的 尺寸 。Yan 等 提出 一 种 基于 “轮廓 ”的 方法 将 频繁 
( 团 ) 项 集 划 分 为 个 代表 。 一 个 相似 项 集 组 成 的 集合 上 的 “轮廓 ”定义 为 这 些 项 集 的 并 集 
以 及 支持 它们 的 事务 包含 的 项 目 概率 分 布 。 基 于 “轮廓 ”方法 的 最 大 亮点 是 能 够 以 最 小 错 
误 率 重建 单个 项 集 及 其 支持 度 计数 。 

实际 应 用 中 ,Top 限制 条 件 常 常 与 其 他 压缩 方式 合并 使 用 5 ,根据 应 用 要 求 有 计划 
地 压缩 挖掘 结果 ,缩减 内 存 占用 ,达到 提高 挖掘 性 能 .利于 数据 分 析 的 目的 。 


1.3.5 近似 频繁 模式 挖掘 

由 于 受到 噪声 或 测量 错误 等 因素 影响 ,得 到 的 实际 数据 可 能 呈现 出 与 理论 结果 不 一 
致 的 现象 。 即 使 是 非常 微弱 的 噪声 ,也 可 能 将 长 频繁 模式 切 分 成 数量 呈 对 数 级 别 的 频繁 
Hr BRUSH ,而 使 用 传统 的 频繁 模式 挖掘 方法 不 可 能 从 这 些 片段 中 恢复 出 真实 的 长 频繁 
模式 。 

十 几 年 来 ,针对 容错 数据 环境 下 的 频繁 模式 挖掘 问题 ,科研 工作 者 们 进行 了 深入 研 
FEO) | Yang 等 提出 了 两 种 容错 模型 ,分 别 挖掘 弱 容错 频繁 项 集 (Weak ETD 和 强 容 错 
频繁 项 集 (Strong ETD, Steinbach 等 提出 采用 支持 度 外 过 工具 实现 事务 数据 库 内 部 
模式 结构 的 可 视 化 " ,并 使 用 对 称 ETI 模型 描述 行 和 列 允 许 相 同比 例 数据 错误 的 情况 。 
Seppänen 和 Mannila 提出 噪声 环境 下 的 稠密 项 集 概念 中 。 这 里 的 一 个 稠密 项 集 是 指 将 
事务 数据 库 表示 为 二 维和 矩阵 之 后 ,存在 于 和 矩阵 内 的 一 个 足够 大 的 子 矩 阵 区域 , 要 求 此 子 区 
域 中 出 现 的 属性 数目 超过 给 定 的 属性 浓度 国 值 。Liu 等 提出 了 挖掘 近似 频繁 项 集 的 通用 
模型 , 即 在 由 事务 和 项 目 构成 的 二 维 矩 阵 中 以 不 同 的 参数 分 别 从 行 和 列 两 个 方向 控制 
错误 数据 所 占 的 比例 。 

显然 ,上 述 不 同 的 说 法 ,如 容错 频繁 项 集 、 容 噪 频繁 项 集 .稠密 项 集 等 都 是 近似 频繁 模 
式 的 不 同类 型 或 不 同 定义 。 发 现 它们 需要 的 挖掘 方法 也 是 类 似 的 或 者 通用 的 。 在 本 书 的 
后 面 章节 ,近似 频繁 模式 挖掘 技术 将 作为 重点 研究 内 容 之 一 。 
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本 书 研究 的 频繁 模式 挖掘 类 型 如 图 1. 3 所 示 。 


频繁 项 集 挖掘 







频繁 闭 项 集 挖 气 











频繁 模式 挖掘 


最 大 频繁 项 集 挖 掘 





Top-k 频 繁 模式 挖掘 













近似 频繁 模式 挖掘 
图 1.3 本 书 研究 的 频繁 模式 挖掘 类 型 


1.4.1 研究 内 容 

本 书 主要 针对 两 类 典型 的 不 确定 数据 , 即 概 率 数据 和 容错 数据 ,进行 概率 频繁 模式 挖 
据 和 近似 频繁 模式 挖掘 及 关联 规则 发 现 的 相关 研究 ,并 应 用 于 不 确定 的 中 医药 诊疗 数据 
环境 下 ,从 主观 不 确定 性 和 客观 不 确定 性 两 个 方面 提出 相应 的 解决 方案 ,实现 面向 不 确定 
数据 的 高 效 频繁 模式 挖掘 ,并 通过 实验 验证 了 它们 的 有 效 性 。 本 书 的 主要 研究 内 容 如 下 。 

l. 不 确定 频繁 模式 挖 据 技 术 综 述 

首先 分 析 了 数据 不 确定 性 产生 的 原因 ,综述 了 多 种 不 确定 数据 模型 ,研究 了 目前 常用 
的 多 种 不 确定 频繁 模式 挖掘 技术 ,包括 不 确定 频繁 项 集 挖掘 ,不 确定 序列 模式 挖掘 、 不 确 
定 频繁 子 图 模式 挖掘 ,不 确定 高 效用 项 集 挖掘 以 及 不 确定 加 权 频 繁 项 集 挖掘 技术 ,总结 了 各 
种 不 确定 频繁 模式 挖掘 技术 的 优 缺 点 ,并 指出 不 确定 频繁 模式 挖掘 研究 可 能 的 发 展 方向 。 

2. 概率 频繁 项 集 精 确 挖 气 方 法 研究 

首先 基于 传统 的 Eclat 框架 ,设计 了 一 种 旨 在 提高 算法 执行 效率 的 双向 排序 策略 ; 然 
后 基于 概率 频 度 的 定义 ,针对 垂直 数据 格式 的 概率 数据 提出 概率 频繁 项 集 精确 挖掘 算 
法 一 一 UBEclat 算法 ,并 在 基准 数据 集 和 真实 数据 集 上 进行 了 对 比 实验 。 实 验 结果 表明 ， 
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UBEclat 算法 能 够 依据 支持 度 的 概率 分 布 ,准确 挖掘 出 基于 概率 频 度 的 不 确定 频繁 项 集 。 

3. 概率 频繁 项 集 近 似 挖 握 方 法 研究 

基于 可 能 性 世界 理论 ,人 研究 了 概率 频繁 模式 近似 挖掘 方法 ,针对 概率 频繁 项 集 精确 挖 
掘 算法 执行 效率 较 低 .运行 时 间 过 长 的 问题 ,应 用 大 数 定律 优化 挖掘 过 程 , 提 出 一 种 高 效 
的 概率 频繁 项 集 近 似 挖掘 算法 一 一 NDUEclat 算法 ,并 在 基准 数据 集 和 真实 数据 集 上 进 
行 了 多 组 对 比 实验 。 实 验 结果 显示 ,该 算法 明显 改善 了 不 确定 频繁 项 集 挖掘 算法 的 执行 

4. 基于 粗糙 集 理论 的 容错 频繁 模式 挖掘 方法 研究 

研究 了 容错 数据 模型 以 及 粗糙 集 理 论 在 数据 挖掘 中 的 应 用 ;针对 NP-hard 类 的 容错 
频繁 模式 挖掘 问题 ,探索 基于 粗糙 集 理论 的 近似 挖掘 方法 ,提出 一 种 将 容错 数据 库 映 射 为 
bibo ii 并 在 基准 数据 集 和 真实 数据 集 上 进行 了 对 比 实验 。 与 前 人 的 研 

结果 相 比 ,该 方法 在 挖掘 的 准确 率 指 标 上 ,具有 更 好 的 性 能 表现 。 

5. 基于 粗糙 集 理论 的 近似 挖 气 方 法 在 中 医药 诊疗 数据 库 中 的 应 用 

为 了 提高 挖掘 结果 的 实际 可 用 性 ,研究 了 目前 的 近似 频繁 模式 挖掘 算法 。 根 据 当 前 
算法 在 实际 应 用 中 的 问题 ,基于 粗糙 集 理论 ,提出 了 一 veer Top-k 近似 频繁 闭 模式 的 新 
模型 ,并 将 该 模型 应 用 于 真实 中 医药 数据 集 ,解决 中 医 诊疗 应 用 中 的 实际 问题 。 实 验 结果 
表明 ,新 模型 可 以 更 精准 地 表达 近似 频繁 模式 ,有 利于 实现 基于 中 医 诊 疗 应 用 的 知识 
发 现 。 

本 书 的 研究 内 容 与 不 确定 频繁 模式 挖掘 之 间 的 关系 如 图 1.4 所 示 。 


1.4.2 本 书 贡献 

本 书 的 主要 贡献 可 以 总 结 为 以 下 几 点 。 

l. 综述 了 不 确定 数据 环境 下 主要 的 频繁 模式 挖 握 方 法 

第 2 章 分 析 了 数据 不 确定 性 产生 的 原因 ,研究 了 各 种 不 确定 数据 模型 ;综述 了 不 确定 
数据 环境 下 主要 的 频繁 模式 挖掘 方法 ,包括 不 确定 频繁 项 集 挖掘 .不 确定 序列 模式 挖掘 、 
不 确定 频繁 子 图 模式 挖掘 \ 不 确定 高 效用 项 集 挖掘 以 及 不 确定 加 权 频 繁 项 集 挖掘 技术 ;总 
结 了 各 种 不 确定 频繁 模式 挖掘 技术 的 优 缺 点 ;指出 了 不 确定 频繁 模式 挖掘 研究 可 能 的 发 
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面向 不 确定 数据 
的 频繁 模式 挖掘 


























基于 概率 数据 的 基于 容错 数据 的 

频繁 模式 挖 所 频繁 模式 挖 所 

Eclat 框 架 下 基于 基于 粗糙 集 理 论 

支持 度 的 双向 排序 的 近似 频繁 模式 

策略 挖掘 方法 
je | 

| 概率 频繁 项 集 概率 频繁 项 集 】 — { 控 掘 Top-k 近 似 频 reme 
精确 挖 气 算 法 近似 挖掘 算法 “| ”| 繁 闭 模式 的 新 模型 |】 | 疗 数据 库 中 的 应 





























图 1.4 本 书 主要 研究 内 容 


展 方向 。 该 综述 为 后 面 章节 的 工作 提供 理论 基础 和 研究 思路 。 

2. 提出 一 种 基于 Eclat 框架 的 概率 频繁 项 集 精 确 挖 握 算法 

第 3 章 提出 一 种 旨 在 提高 算法 执行 效率 的 双向 排序 策略 ,并 应 用 于 第 4 章 提出 的 概 
率 频 繁 项 集 精确 挖掘 算法 一 UBEclat 算法 。UBEclat 算法 的 主要 特点 是 : 依据 概率 频 
度 挖掘 概率 频繁 项 集 ;采用 垂直 挖掘 框架 更 方便 地 生成 Top-k 频繁 模式 ;采用 双向 排序 策 
略 减 少 挖掘 过 程 中 的 宛 余 操 作 。 在 基准 数据 集 和 真实 数据 集 上 的 对 比 实验 表明 ,UBEclat 
算法 能 够 依据 支持 度 的 概率 分 布 ,准确 挖掘 出 所 有 概率 频繁 项 集 。 这 是 使 用 Eclat 框架 
解决 概率 数据 中 频繁 模式 精确 挖掘 问题 的 有 益 尝 试 。 

3. 提出 一 种 高 效 的 概率 频繁 项 集 近 似 挖 气 算 法 

第 4 童 提出 一 种 高 效 的 概率 频繁 项 集 近 似 挖掘 算法 一 一 NDUEclat 算法 。NDUEclat 
算法 采用 分 而 治之 的 方法 ,结合 Eclat 框架 并 依据 大 数 定律 近似 化 ,优化 了 挖掘 过 程 , 改 
进 了 概率 频繁 项 集 挖掘 算法 的 执行 效率 。 在 基准 数据 集 和 真实 数据 集 上 的 多 组 对 比 实验 
也 验证 了 该 算法 的 有 效 性 。 就 目前 研究 文献 可 知 ,这 是 第 一 个 基于 支持 度 的 概率 分 布 在 
垂直 数据 格式 的 数据 库 中 近似 挖掘 概率 频繁 项 集 的 高 效 算法 。 

4. 提出 一 种 基于 粗糙 集 理论 的 近似 频繁 模式 挖 气 方 法 

针对 NP-hard 类 的 容错 频繁 模式 挖掘 问题 ,第 5 章 结合 粗 糙 集 理论 ,提出 一 种 将 容错 
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数据 库 映 射 为 事务 信息 系统 ,挖掘 近似 频繁 模式 的 新 方法 。 该 方法 基于 挖掘 出 的 频繁 项 
目 确定 决策 表 中 的 决策 属性 ;基于 粗糙 集 理论 中 上 近似 和 下 近似 概念 ,确定 容错 频繁 模式 
的 近似 程度 。 显 然 , 基 于 粗糙 集 理论 的 近似 频繁 模式 挖掘 方法 为 有 效 解决 容错 数据 挖掘 
问题 提供 了 新 的 思路 ,是 粗糙 集 理 论 应 用 于 容错 频繁 模式 挖掘 研究 的 积极 探索 。 

5. 提出 一 种 挖 气 Top- 近似 频繁 闭 模式 的 新 模型 

针对 容错 数据 中 的 频繁 模式 挖掘 方法 在 实际 应 用 中 的 问题 ,第 6 章 提出 一 种 基于 粗 
糙 集 理论 挖掘 Top 近似 频繁 闭 模式 的 新 模型 。 该 模型 主要 由 三 部 分 组 成 : 用 聚 类 算法 
完成 数据 预 处 理 ; 对 同一 类 中 的 事务 依据 粗糙 集 理论 进行 属性 约 简 生 成 核 模式 :将 核 模式 
作为 初始 种 子 构建 等 价 类 ,用 分 层 挖掘 的 方法 搜索 近似 频繁 闭 模式 。 在 中 医药 数据 集 上 
的 对 比 实验 表明 ,该 模型 可 以 更 精准 地 表达 近似 频繁 模式 ,有 利于 实现 基于 中 医 诊疗 过 程 
的 知识 发 现 , 在 中 医 诊疗 研究 领域 将 会 有 较 好 的 应 用 前 景 。 





1.5 本 书 结 构 


本 书 共 分 为 7 章 , 具 体 安 排 如 下 。 

第 1 章 : 介绍 了 本 书 的 研究 背景 及 意义 ,对 不 确定 频繁 模式 挖掘 研究 的 国内 外 相关 
iuge 出 本 书 的 主要 研究 内 容 , 指 出 了 本 书 的 主要 贡献 。 

第 2 章 : 综述 了 不 确定 数据 环境 下 主要 的 频繁 模式 挖掘 方法 ,包括 不 确定 频繁 项 集 
挖掘 ,不 确定 序列 模式 挖掘 ,不 确定 频繁 子 图 模式 挖掘 ,不 确定 高 效用 项 集 挖掘 以 及 不 确 
定 加 权 频 繁 项 集 挖掘 等 方法 的 优 缺 点 ,分 析 了 各 种 不 确定 数据 模型 并 指出 不 确定 频繁 模 
式 挖掘 研究 的 发 展 方向 。 

第 3 章 : 首先 分 析 了 传统 Eclat 算法 可 能 存在 的 问题 ,提出 了 适用 于 垂直 数据 格式 、 
基于 支持 度 的 双向 处 理 策略 ;然后 针对 该 策略 进行 不 确定 数据 环境 下 的 适应 性 改进 和 优 
化 ,提出 了 有 效 处 理 概 率 数 据 的 支持 度 双向 排序 策略 ;最 后 设计 实验 验证 这 两 个 策略 的 
性 能 。 

第 4 章 : 介绍 了 基于 概率 数据 的 频繁 项 集 精确 挖掘 算法 和 近似 挖掘 算法 ,在 此 基础 
上 ,结合 双向 排序 策略 提出 了 采用 Eclat 框架 的 概率 频繁 项 集 精确 挖掘 算法 一 一 UBEclat 
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算法 ;针对 挖掘 效率 问题 对 UBEclat 算法 继续 改进 ,提出 了 概率 频繁 项 集 近 似 挖掘 算 
法 一 一 NDUEclat 算法 ;最 后 设计 实验 分 析 对 比 算法 的 性 能 。 

第 5 章 : 首先 介绍 了 基于 容错 数据 的 不 确定 数据 模型 ,总 结 了 粗糙 集 理论 在 数据 控 
气 中 的 应 用 ;然后 提出 了 一 个 基于 粗糙 集 理论 的 近似 频繁 模式 挖掘 方法 ,并 通过 对 比 实验 
证 明了 该 算法 的 有 效 性 和 准确 性 。 

第 6 章 : 面 对 中 医药 数据 的 特点 和 实际 应 用 需求 ,提出 了 一 个 基于 容错 数据 的 Top-k 
近似 频繁 闭 模式 挖掘 模型 ,并 将 该 模型 用 于 解决 中 医 诊疗 数据 中 的 药物 配伍 规律 分 析 和 
核心 组 分 筛 查 等 实际 问题 。 

第 7 章 : 总 结 本 书 的 主要 工作 ,并 对 未 来 研究 方向 进行 展望 。 
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传统 的 数据 库 应 用 通常 认为 数据 的 存在 性 和 精确 性 确 溺 无 疑 ,因此 ,在 针对 传统 数据 
的 频繁 模式 挖掘 中 ,每 一 事务 包含 的 项 目 是 确定 的 。 传 统 的 频繁 模式 挖掘 技术 仅仅 依靠 
支持 度 作 为 项 集 出 现 频繁 程度 的 唯一 度量 。 然 而 ,在 许多 实际 应 用 中 ,由 于 受到 噪声 、 错 
误 等 主客 观 因素 的 影响 ,数据 常常 表现 出 不 确定 性 。 这 时 ,一 个 事务 中 包含 的 项 目 往往 以 
概率 的 形式 出 现 。 这 样 的 不 确定 数据 会 对 频繁 模式 挖掘 的 实际 结果 产生 不 可 忽视 的 影 
响 , 导 致 不 同事 务 中 同一 个 项 目 存在 的 频繁 程度 只 能 以 某 种 相似 性 度量 。 所 以 ,在 不 确定 
数据 环境 下 , 若 使 用 传统 的 频繁 模式 挖掘 方法 ,可 能 得 到 的 是 大 量 无 实际 意义 的 频繁 片 
段 , 也 可 能 挖掘 出 的 信息 有 较 大 误差 甚至 毫 无 意义 。 因 此 ,传统 的 针对 确定 数据 的 频繁 模 
式 挖掘 算法 和 模型 已 远 远 不 能 满足 实际 应 用 的 需求 。 

近年 来 ,针对 各 种 不 确定 数据 的 频繁 模式 挖掘 技术 受到 国内 外 科研 工作 者 的 广泛 关 
WE ,并 成 为 数据 挖掘 领域 的 研究 热点 。 基 于 实际 应 用 中 存在 的 各 种 不 确定 数据 类 型 ,本章 
综述 目前 常用 的 不 确定 频繁 模式 挖掘 技术 并 分 析 它 们 的 优 缺 点 。 本 章 的 结构 安排 如 下 : 
2. 1 节 分 析 数 据 不 确定 性 产生 的 原因 ;2. 2 节 介 绍 可 能 性 世界 理论 和 概率 数据 库 ;2. 3 节 
介绍 不 确定 频繁 项 集 挖掘 技术 ;2.4 节 介 绍 不 确定 序列 模式 挖掘 技术 ;2. 5 节 介绍 不 确定 
频繁 子 图 模式 挖掘 技术 ;2.6 节 介 绍 不 确定 高 效用 项 集 挖掘 技术 ;2. 7 节 介绍 不 确定 加 权 
频繁 项 集 挖掘 技术 ;2.8 节 对 本 章 内 容 进行 总 结 。 


2.1 数据 不 确定 性 的 原因 
数据 的 不 确定 性 在 现实 应 用 中 普遍 存在 。 造 成 数据 不 确定 性 的 原因 主要 有 以 下 几 种 


情况 5,6'63,69 。 
(1) 测量 仪器 设备 本 身 的 精确 度 不 够 导致 获得 的 数据 存在 不 确定 性 。 
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(2) 有 限 的 测量 技术 手段 使 得 测量 人 员 只 能 获得 固有 的 不 精确 的 测量 结果 。 

(3) 二 进 制 数据 在 网 络 传输 过 程 中 容易 受到 环境 噪声 的 影响 ,不 可 避免 地 产生 误差 ， 
导致 数据 的 不 确定 性 。 

(4) 由 于 链 路 延迟 或 网 络 拥塞 等 不 确定 因素 的 存在 , 收 到 的 原始 数据 可 能 是 不 完整 
的 ,导致 数据 不 确定 性 的 出 现 。 

(5) 在 移动 网 络 环境 下 ,时 间 、 空 间 的 频繁 切换 引起 移动 用 户 的 属性 数据 前 后 不 一 
致 ,导致 数据 不 确定 性 的 产生 。 

(6) 某 些 在 线 移动 应 用 中 ,处 于 隐私 保护 的 需要 ,敏感 数据 中 会 加 入 扰动 信息 或 只 
统计 数据 。 这 种 不 可 避免 的 汇总 记录 或 噪声 数据 导致 原始 数据 中 存在 不 确定 性 "3 。 

CT) 某 些 在 线 销售 应 用 中 ,记录 对 应 的 属性 是 使 用 数学 统计 的 方法 (如 预测 或 归纳 》 
获得 的 。 这 样 的 属性 值 应 该 是 不 精确 或 不 完整 的 。 例 如 ,如 果 一 个 移动 用 户 上 周 浏 览 过 
某 销售 网 站 10 次 ,其 中 有 6 次 单 击 了 某 在 线 产品 。 依 据 统计 信息 可 以 认为 该 用 户 购买 此 

品 的 概率 为 60%。 显 然 ,在 这 种 情况 下 ,数据 潜在 的 不 确定 性 来 源 于 得 到 的 数据 仅 是 
估计 值 而 已 。 

(8) 在 新 兴 的 移动 应 用 中 ,物体 的 运动 轨迹 可 能 是 未 知 的 ,本 质 上 也 是 不 确定 的 Fe 。 
因此 ,对 于 图 像 中 某 时 空 对 象 存在 的 可 能 性 ,也 是 以 概率 的 形式 描述 。 也 就 是 说 , 受 限于 
人 们 对 时 空 对 象 感知 的 能 力 , 对 于 移动 对 象 的 未 来 行为 ,得 到 的 结果 也 只 能 是 预测 的 , 自 
然 也 是 不 确定 的 。 

综合 上 述 原 因 , 研 究 人 员 通 常 把 数据 的 不 确定 性 归纳 为 两 种 情况 : 主观 原因 引入 的 
数据 不 确定 性 和 客观 原因 导致 的 数据 不 确定 性 。 它 们 对 应 的 分 别 是 概率 数据 和 容错 数 
据 。 本 音 主 要 针对 概率 数据 展开 研究 。 


2.2 可 能 性 世界 理论 和 概率 数据 库 


实际 应 用 中 ,经 常 很 难 确定 特定 事务 是 否 确实 包含 指定 的 项 目 ,因此 ,人 们 通常 使 用 
可 能 性 世界 模型 来 解释 不 确定 数据 。 在 不 确定 数据 环境 下 ,一 个 项 集 存在 于 特定 事务 中 
的 可 能 性 更 适合 用 概率 的 形式 来 描述 ,从 而 形成 了 概率 数据 库 。 
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概率 数据 库 ”一 个 概率 数据 库 由 N 个 实体 组 成 , 即 PDB= {P,P ,Pi,…,Pn}， 
其 中 每 一 个 实体 P;(1 志 i 过 NN) 表 示 为 一 个 元 组 二 tid, X>. XE tid 是 每 个 实体 的 唯一 
标识 ,而 X 则 是 该 实体 对 应 的 属性 列表 , 即 X — Gn (pr) ean (pa) emm; (Pj) ens Cb) 
A<j<m). Ea; 包含 关于 特定 实体 P; 的 第 7 个 属性 的 信息 ,p; 反映 了 该 实体 包含 第 

个 属性 zx; 的 可 信 程度 ,用 概率 值 的 形式 描述 了 该 实体 与 对 应 属性 之 间 的 关系 。 

根据 Boulos 等 人 中 的 研究 工作 ,一 个 概率 数据 库 就 是 有 限 个 可 能 性 世界 构成 的 集 
合 , 其 中 每 一 个 可 能 性 世界 都 具有 真实 发 生 的 可 能 性 。 因 此 ,每 一 个 可 能 性 世界 就 是 一 个 
确定 数据 库 。 然 而 ,在 可 能 性 世界 集合 中 ,虽然 能 够 确信 其 中 只 有 一 个 可 能 性 世界 是 “ 真 
实 ” 世 界 ,但 是 无 法 得 知 该 集合 中 究 竞 哪 一 个 可 能 性 世界 就 是 那个 “真实 ”的 世界 。 因 此 ， 
可 以 给 每 一 个 可 能 性 世界 赋予 各 自 的 概率 值 ,用 于 表示 人 们 认为 每 一 个 可 能 性 世界 成 为 

“真实 ”世界 的 可 信 程 度 。 

将 可 能 性 世界 理论 用 于 概率 数据 库 的 研究 中 ,概率 数据 库 中 的 每 一 个 项 目 都 与 一 
非 零 概率 值 p(x,7T;) 相 关联 ,表示 项 目 zx 在 事务 T; 中 存在 的 可 能 性 。 owe 
x 和 事务 T, 的 可 能 性 世界 "9 存在 两 个 : 项 目 xz 在 事务 T; 中 出 现 ,表示 为 wi HA x 未 
出 现在 事务 T, 中 ,表示 为 w. H p Ge D REIR w 成 为 真实 世界 的 可 能 性 , 若 p(w ) = 
bG TO W pus) —1—pCGe Ti)。 显 然 , 如 果 一 个 事务 中 包含 两 个 项 目 ,那么 对 应 得 到 
四 个 可 能 性 世界 。 也 就 是 说 ,根据 可 能 性 世界 模型 ,事务 中 存在 项 目的 可 能 性 用 可 能 性 世 
界 集合 表示 ,一 个 概率 数据 库 对 应 产生 一 个 庞大 的 可 能 性 世界 集合 。 所 有 可 能 性 世界 的 
存在 概率 之 和 为 1 ,可 能 性 世界 的 数量 随 项 目 个 数 的 增长 呈 指 数 增长 趋势 。 


2.3 不 确定 频繁 项 集 挖掘 


由 于 获得 的 原始 数据 中 存在 不 完整 性 和 不 确定 性 ,研究 人 员 不 能 保证 得 到 的 数据 完 
全 可 靠 , 只 能 以 一 定 的 概率 描述 对 原始 数据 的 认可 程度 ,这 样 得 到 的 带 有 概率 属性 的 数据 
就 构成 了 频繁 项 集 挖掘 中 所 谓 的 概率 数据 库 *" 。 目 前 的 概率 数据 库 管理 系统 就 是 依据 
概率 来 描述 数据 间 的 不 确定 性 ,进而 管理 这 些 数据 的 5 2。 这 些 系统 主要 包括 美国 华 盛 
顿 大 学 的 MystiQU? .斯 坦 福 大 学 的 Trio? 和 ULDBU 、 康 乃尔 大 学 的 MayBMSU? 、 普 
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渡 大 学 的 Orion" VIRI SCK £6 Z KEN Conquer? 


2.3.1 基于 概率 数据 的 不 确定 数据 模型 
在 概率 数据 库 中 ,常用 的 不 确定 数据 表示 方式 主要 有 两 种 : 水 平 数据 格式 ( 见 表 2. 1) 
和 垂直 数据 格式 ( 见 表 2.2). 


R21 水 平 数据 格式 的 不 确定 数据 模型 

















TID 事务 中 包含 的 项 目 

T; ACO. 6) B(0. 5) C(O. 4) D(0.5) 
T, AC. 7) D0. 8) E(0. 25) 

T; ACO. 6) BC. 2) C(O. 8) DC. 4) 
T4 C(O. 7) D0. 3) E(0. 2) 

Ts AC. 5) CC. 7) E(0.3) 


R22 垂直 数据 格式 的 不 确定 数据 模型 

















IID 事务 列表 

A Ti (0. 6) T; C0. 7) T; C0. 6) Ts C0. 5) 
B Tı (0. 5) T; C0. 2) 

e Ti (0. 4) T; C0. 8) T. 0. 7) T; (0. 7) 
D Tı (0. 5) T: (0. 8) T: (0. 4) T C0. 3) 
E T: (0. 25) Tı (0. 2) Ts (0. 3) 





在 水 平 数据 格式 的 概率 数据 库 中 ,整个 数据 库 由 一 系列 事务 组 成 ,每 个 事务 实体 就 是 
一 个 元 组 ,由 多 个 带 有 概率 值 的 项 目 (属性 ) 构 成 ,每 个 概率 值 描 述 的 是 该 项 目 在 对 应 事务 
中 出 现 的 可 能 性 。 

在 垂直 数据 格式 的 概率 数据 库 中 ,每 个 实体 就 是 一 个 项 目 ,整个 数据 库 就 是 一 个 不 确 
定 项 目的 集合 。 每 个 项 目 作为 一 个 元 组 ,由 一 个 事务 列表 组 成 ,其 中 每 个 事务 附带 的 概率 
值 描述 对 应 项 目 出 现在 此 事务 中 的 可 能 性 。 根 据 数据 处 理 的 需要 ,概率 数据 库 中 的 这 两 
种 数据 表示 形式 可 以 相互 转换 。 
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多 年 来 ,基于 概率 数据 库 的 频繁 项 集 控 掘 研究 硕果 累累 。 显 然 , Chui 等 提出 的 
UApriori? Aggarwal 等 提出 的 UFP-growth 和 UH-miner 算 法 是 三 个 广 为 接 受 的 概 
率 频繁 项 集 挖 掘 算法 ,它们 分 别 是 传统 频繁 项 集 控 掘 算法 A priori?) .FP-growth"*! 和 H- 
mine" 应 用 于 概率 数据 库 的 扩展 版 本 。 除 了 这 些 基 于 水 平 数据 格式 的 算法 ,还 有 采用 垂 
直 数 据 格式 的 频繁 项 集 控 掘 方法 ,如 Abdelmegid 的 UEclat 算法 co , Leung 等 的 UV- 
Eclat 算法 [5 与 U-VIPER™! kA Calders 等 的 U-Eclat $E 15091 等。 


2.3.2 基于 水 平 数据 格式 的 挖掘 方法 

在 实际 应 用 中 ,水 平 数据 格式 是 概率 数据 库 中 普遍 采用 的 数据 表示 形式 ,所 以 大 多 数 
频繁 模式 挖掘 方法 聚焦 在 水 平 数据 格式 构成 的 概率 数据 库 中 。 这 些 方法 大 多 源 于 经 典 的 
qu Sky JE Tz du SEE: Apriori、FP-growth 或 H-mine 算法 ,并 对 它们 进行 适应 性 的 
Birgi, 

类 Apriori 框架 的 确定 频繁 项 集 挖 掘 算法 ,在 作用 于 稠密 数据 库 时 ,通常 会 产生 大 量 
的 长 模式 候选 项 集 ,这 是 此 类 算法 的 主要 缺陷 。 而 目前 的 研究 表明 ,类 Apriori 框架 作用 
于 稠密 的 概率 数据 库 进行 不 确定 频繁 项 集 挖掘 时 ,表现 出 了 明显 的 性 能 优势 。 

2007 年 ,Chui 等 提出 的 UA priori 算法 要 基于 产生 检测 框架 ,采用 深度 优先 方式 搜 
索 概 率 数 据 库 ,挖掘 不 确定 频繁 项 集 。 其 操作 方式 类 似 于 确定 数据 库 中 的 Apriori 算法 。 
随后 ,Chui 等 又 提出 了 数据 修剪 (Data Trimming) 策 略 , Chui 和 Kao 提出 递减 前 枝 
(Decremental Pruning) 技 术 进 一 步 优化 UApriori 算法 的 性 能 Be9 。 其 中 数据 修剪 策略 的 
基本 原理 是 : 首先 设置 一 个 较 低 的 存在 概率 值 ,以 此 为 依据 修剪 原始 数据 库 中 实际 意义 
较 低 的 项 目 ,创建 一 个 修剪 后 的 数据 库 。 此 后 ,频繁 模式 挖掘 操作 就 在 这 个 修剪 后 的 概率 
数据 库 上 进行 。 显 然 , 创 建 修 剪 后 的 数据 库 会 增加 算法 的 空间 复杂 度 。 至 于 递减 剪 枝 技 
术 , 则 是 首先 检查 并 修剪 那些 期 望 支持 度 上 界 低 于 最 小 支持 度 阔 值 的 项 目 , 从 而 减少 候选 
模式 数量 ,达到 提高 挖掘 效率 的 目的 。 当 然 ,该 技术 的 实现 效率 也 取决 于 需 处 理 的 数据 库 
的 具体 结构 。 实 验 结果 表明 , 当 UApriori 算法 用 于 最 小 支持 度 阔 值 较 高 的 稠密 数据 库 
时 ,其 挖掘 效果 明显 优 于 UFP-growth 算法 和 UH-mine 算法 。 

FP-growth 算法 应 用 于 确定 的 稠密 数据 库 时 获得 了 良好 的 时 空 性 能 ,这 应 该 得 益 于 
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该 算法 能 够 有 效 地 将 大 量 的 长 模式 压缩 在 共享 前 级 树 中 。 然 而 ,前 人 的 研究 结果 表明 , 当 
FP-growth 算法 应 用 于 不 确定 数据 环境 下 时 , 却 没 有 表现 出 类 似 的 性 能 优势 。 例 如 ,采用 
分 而 治之 的 策略 ,基于 树 状 结构 的 UFP-growth 算法 "外 作用 于 概率 数据 库 时 就 没有 取得 
预期 的 良好 性 能 。 究 其 原因 ,可 能 是 在 概率 数据 库 中 ,同一 个 项 目 通 常会 包含 多 个 不 同 的 
属性 值 分 别 描述 该 项 目 在 不 同事 务 中 存在 的 可 能 性 。 将 所 有 项 目的 不 同 取 值 统统 压缩 在 
UFP-growth 算法 的 共享 前 绥 树 中 显然 不 是 一 件 容 易 的 事 。 如 果 待 处 理 的 是 一 个 稀疏 数 
据 库 , 这 更 是 一 项 非常 耗费 时 空 代价 的 任务 。 此 外 ,在 最 小 支持 度 阔 值 较 低 的 情况 下 ， 
UFP-growth 算法 中 FP-tree 的 条 件 树 结构 也 会 变 得 异常 庞大 ,其 中 大 量 的 完 余 候选 项 集 
就 会 耗 尽 有 限 的 存储 空间 。 由 此 可 见 ,UFP-growth 算法 中 的 树 结 构 并 不 适合 数据 稀 玻 
的 概率 数据 库 。 目 前 ,人 们 逐步 寻找 一 些 解 决 方案 缓解 UFP-growth 算法 固有 的 压缩 问 
题 ,并 取得 了 一 定 效果 。2009 年 ,Aggarwal 等 提出 了 一 种 妥协 方案 059 。 对 于 每 一 个 频繁 
项 目 , 只 需 在 UFP-growth 的 压缩 树 结构 中 存储 项 目 存 在 概率 的 最 大 值 , 这 样 仅 使 用 期 户 
支持 度 的 上 界 参与 后 面 的 计算 ,获得 近似 频繁 项 集 。2012 年 , Leung 等 提出 了 CUF- 
growth EN ,主张 对 同一 个 事务 支持 的 所 有 项 目 , 只 需 记 录 其 中 存在 概率 最 高 的 两 个 
项 目 , 并 将 它们 的 乘积 作为 支持 度 的 上 界 参与 后 面 的 运算 。 在 这 些 算法 中 ,共同 的 关键 点 
就 是 放宽 构建 共享 前 缀 树 的 条 件 ,在 更 简洁 的 树 状 结构 中 挖掘 概率 频繁 项 集 。 然 而 ,这 些 
解决 方案 也 陷入 了 另 一 个 难题 , 即 需要 构建 第 三 方 概率 数据 库 来 减少 可 能 出 现 的 伪 正 例 。 

2012 年 ,Calders 等 气 弃 了 UFP-tree 结构 ,提出 了 UH-mine 算法 。UH-mine 算法 采 
用 一 个 带 有 超 链接 的 数组 结构 存储 概率 数据 。 虽 然 同 样 采用 分 而 治之 、 深 度 优先 的 策略 ， 
但 UH-mine 算法 在 子 结构 中 采用 动态 排序 的 方法 进一步 减少 内 存 空 间 的 占用 。 因 此 ， 
UH-mine 算法 在 性 能 上 优 于 上 述 两 种 算法 ,尤其 适用 于 最 小 支持 度 阔 值 较 小 的 稀 朴 概率 
数据 库 。 





2.3.3 基于 垂直 数据 格式 的 挖掘 方法 

在 过 去 的 十 多 年 里 ,基于 垂直 数据 格式 的 频繁 项 集 挖 握 算法 作为 一 种 广 为 接 受 的 方 
法 普遍 用 于 传统 的 确定 数据 库 中 实施 挖掘 任务 。Eclat 算法 作为 其 中 的 佼佼 者 ,其 挖掘 效 
率 通常 优 于 相应 的 水 平 数据 格式 下 的 挖掘 方法 。Eclat 算法 的 主要 优点 如 下 。 
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(1) 通过 项 集 间 的 并 操作 快捷 地 实现 模式 扩展 并 对 无 关 数 据 自动 剪 枝 。 

(2) 通过 事务 间 的 交 操 作 实 现 简单 .快捷 的 支持 度 计 数 。 

近年 来 ,基于 垂直 数据 格式 的 挖掘 方法 被 证 明 是 一 种 很 有 前 途 的 方法 ,适合 用 于 概率 
数据 库 进 行 频繁 模式 挖掘 任务 ,其 性 能 优 于 基于 水 平 数据 格式 的 挖掘 方法 Bs 。 根 据 目 前 
的 文献 资料 ,基于 垂直 数据 格式 的 概率 频繁 项 集 挖掘 算法 大 多 数 采 用 Eclat 挖掘 框架 ,是 
Eclat 算法 应 用 于 概率 数据 环境 下 的 扩展 版 本 。 

2010 年 ,Calders 等 提出 了 一 种 基于 采样 的 概率 频繁 项 集 挖掘 方法 , 即 U-Eclat 算 

法 1。 首先 ,该 算法 为 事务 中 的 每 个 项 目 产 生 一 定数 量 的 随机 数 , 取 值 在 0 和 1 之 间 。 
然后 将 这 些 随 机 数 与 该 项 目 当前 的 存在 概率 相 比 较 ,模拟 建立 一 个 “确定 ”的 采样 数据 库 ， 
其 中 每 个 项 目的 属性 值 就 是 根据 比较 结果 得 到 的 不 确定 情况 下 该 项 目的 平均 支持 度 估计 
值 。 最 后 ,运用 传统 的 Eclat 算法 在 “确定 ”的 采样 数据 库 中 挖掘 频繁 项 集 作为 对 应 不 确 
定 频 繁 项 集 的 近似 结果 。 作 为 Eclat 算法 在 概率 数据 库 中 的 第 一 个 扩展 版 本 ,U-Eclat 算 
法 获得 了 优 于 UApriori 和 UH-mine 算法 的 性 能 。 但 该 算法 得 到 的 是 基于 期 望 支持 度 的 
近似 结果 。 

2010 年 ,Abdelmegid 等 提出 了 一 个 基于 垂直 数据 格式 的 精确 挖掘 算法 , 称 为 UEclat 
算法 5 。 为 了 记录 所 有 事务 中 每 个 项 目的 完整 信息 ,UEclat 算法 采用 改进 的 UTidlist 结 
构 存 储 数据 ,并 获得 了 良好 效果 。 唯 一 的 缺憾 是 ,该 算法 进行 期 望 支持 度 计 算 时 存在 丝 
漏 。 随 后 ,Leung 等 在 自己 提出 的 UV-Eclat 算法 中 改正 了 UEclat $6 3; P hii 
疯 , 并 采用 集合 的 形式 表示 数据 ,获得 了 更 优 性 能 。 此 外 ,2012 年 ,Leung 等 尝试 采用 固 
定 长 度 的 矢量 集 表 示 概 率 数 据 库 ,使 用 类 UV-Eclat 算法 挖掘 概率 频繁 项 集 , 这 就 是 U- 
VIPER 算法 [59 。 可 见 , 这 些 基于 垂直 数据 格式 的 挖掘 方法 都 继承 了 Eclat 算法 的 优势 ， 
在 处 理 概率 数据 库 时 获得 了 良好 的 效果 。 

近年 来 的 研究 成 果 表 明 ,在 不 确定 数据 环境 下 ,基于 垂直 数据 格式 的 频繁 项 集 挖掘 
算法 比 基 于 水 平 数据 格式 的 算法 取得 了 更 好 的 实验 效果 Cc] 。 虽 然 基 于 数据 垂直 格式 
的 挖掘 算法 是 一 种 很 有 前 途 的 方法 且 具 有 良好 的 性 能 ,但 并 未 引起 足够 关注 。 因 此 , 目 
前 在 基于 概率 频 度 的 不 确定 频繁 项 集 挖掘 领域 , 仍 未 发 现 有 效 的 基于 垂直 数据 格式 的 
挖掘 算法 。 
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2.4 不 确定 序列 模式 挖掘 


序列 模式 挖掘 (Sequence Pattern Mining) 通 常用 于 分 析 数 据 对 象 随时 间 变 化 的 规 
律 ,实际 上 可 以 看 作 频 繁 模式 挖掘 在 时 间 维 度 上 的 扩展 。 例 如 ,研究 顾客 经 常 购买 的 商品 
集合 时 , 若 不 考虑 购买 商品 的 先后 顺序 ,一 般 使 用 频繁 模式 挖掘 或 关联 规则 发 现 技术 , 若 
关注 的 是 商品 销售 数据 之 间 顺 序 上 的 关联 性 和 规律 性 , 则 需要 使 用 序列 模式 挖掘 方法 。 

序列 模式 挖掘 在 各 领域 具有 广泛 应 用 ,包括 商业 组 织 机 构 研 究 客户 购买 行为 的 模式 特征 、 
计算 生物 学 中 分 析 不 同 氨基 酸 的 突变 模式 .互联 网 应 用 中 分 析 和 预测 用 户 Web 访问 模式 
以 及 进行 DNA 序列 分 析 和 谐 分 析 、 研 究 生物 体 的 进化 信息 .预测 新 的 生物 序列 等 。 

在 序列 模式 挖掘 研究 中 ， oO 
售 交易 、 待 观察 对 象 、 待 研究 的 人 等 ,相应 的 源 对 象 则 是 消费 者 、 传 感 器 .照相 机 等 。 
ee ie ee RU es 
条 记录 对 应 一 个 源 数据 对 象 , 可 以 看 作 按 照 时 间 戳 顺序 排列 的 事件 序列 。 因 此 ,序列 模式 
就 是 具有 时 间 顺 序 的 事件 模式 ,而 序列 模式 挖掘 任务 就 是 在 大 量 的 源 序列 中 寻找 频繁 出 
现 的 序列 模式 。 

1995 年 ,Agrawal 和 Srikant 基于 带 有 时 间 属 性 的 交易 数据 库 , 提 出 了 最 早 的 序列 模 
式 挖掘 概念 9 ,最 初 的 目的 是 研究 消费 者 的 购买 序列 ,发现 频繁 项 目 序 列 , 分 析 一 段 时 间 
内 消费 者 购买 行为 的 规律 。 

WE UO BE [一人 ,is，…,is) 为 项 目的 集合 ,S 二 {1,…,m}) 是 源 数 据 对 象 
的 集合 , 则 一 个 事件 eC 就 是 由 若干 项 目 构 成 的 集合 。 一 个 序列 s— Goes. T 
就 是 若干 事务 构成 的 有 序列 表 , 其 中 事务 s 称 为 序列 中 的 元 素 。 令 ee 
1 二 《i,ts，…,t) 表 示 两 个 不 同 序 列 , 对 于 二 1,2,…,g, 如 果 存 在 整数 ISi << 
ig Sr ,使 得 st IBA s 称 为 : 的 一 个 子 序列 ,表示 为 ;<t。 一 个 序列 数据 集 D— 《ri rs 

ris vary) San TITEL RAE EIN He SHI AE ORE r, € D 表示 为 三 元 组 的 形式 
Ceid; ,ei,0;) ,eid; 为 事件 e; 对 应 的 标识 符 ,o; 为 一 个 数据 对 象 。 给 定 一 个 序列 ; 和 源 数据 
对 象 o;, 令 XX;(s,D) 为 指示 变量 : 
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1 st 
X;(s,D) = B (2:1). 
o 其 他 


序列 数据 集 D 和 用 户 指 定 的 最 小 支持 度 阅 值 min_sup, 序 列 模式 挖掘 的 目的 就 


是 发 现 支持 度 (Supp) 大 于 等 于 min. sup 的 所 有 序列 , 这 里 Supp(s,D) = xou. 


近年 来 ,不 确定 数据 库 的 广泛 应 用 为 序列 模式 控 气 工作 开 尽 了 新 的 研究 领域 5 。 例 
如 ,目前 的 智能 交通 系统 通常 依靠 摄像 头 、 传 感 器 和 照相 机 等 工具 进行 实时 数据 收集 , 然 
后 根据 车 辆 监控 日 志 , 发 现 隐 含 的 带 有 时 间 序 列 的 交通 模式 和 规律 ,并 预测 将 来 可 能 的 交 
通 问 题 。 与 确定 序列 数据 相 比 ,不 确定 序列 数据 模型 更 加 复杂 ,不 确定 序列 模式 研究 取得 
的 丰硕 成 果 离 不 开 科研 人 员 的 不 懈 努 力 。 


2.4.1 不 确定 序列 数据 模型 

在 不 确定 序列 模式 挖掘 任务 中 ,序列 数据 模型 的 不 确定 性 可 能 表现 在 如 下 几 个 方面 : 
源 数据 对 象 的 不 确定 性 ,事件 的 不 确定 性 、` 时 间 的 不 确定 性 等 。 其 中 时 间 的 不 确定 性 并 不 
适合 用 概率 数据 库 来 描述 。 因 此 ,在 目前 的 科研 工作 中 ,重点 研究 的 不 确定 序列 数据 模型 
大 致 分 为 两 类 : 源 对 象 级 (source-level) 和 事件 级 (event-level) 的 不 确定 序列 数据 模型 。 

在 源 对 象 级 的 不 确定 序列 数据 模型 中 ,事件 是 确定 的 、 容 易 识 别 的 ,而 源 对 象 的 识别 
非常 困难 。 例 如 ,在 零售 交易 中 ,每 个 顾客 ( 源 数据 对 象 ) 的 详细 信息 经 常 是 不 准确 和 不 完 
整 的 ,经 过 数据 清洗 等 预 处 理 操 作 之 后 构建 的 顾客 数据 库 , 虽 然 解 决 了 数据 宛 余 问题 ,但 
也 带 来 了 信息 模糊 顾客 识别 困难 等 问题 。 这 时 ,顾客 信息 的 不 确定 性 更 适合 用 概率 数据 
来 描述 [5 。 再 如 ,使 用 传感器 或 照相 机 ( 源 数 据 对 象 ) 观 察 和 研究 车 辆 或 人 的 行为 时 ,由 
于 识别 工具 或 观察 方法 本 身 可 能 存在 噪声 和 误差 ,得 到 的 观察 数据 本 身 也 融入 了 不 确定 
ECS) 。 显 然 , 某 个 事件 的 发 生 是 确定 的 ( 某 个 人 或 某 辆 车 进入 了 观察 区 域 ) ,但 是 具体 哪 
个 源 对 象 实施 了 该 事件 却 很 难 确定 。 因 此 , 源 对 象 对 应 的 属性 只 能 采用 概率 分 布 的 形式 ， 
通过 构建 属性 级 的 不 确定 数据 模型 来 描述 。 若 是 以 车 辆 为 源 对 象 ,将 摄像 行为 作为 事件 ， 
研究 与 “多 少 车 辆 先 经 过 摄像 头 X, 然 后 经 过 摄像 头 Y, 最 后 经 过 摄像 头 Z 类 似 的 序列 模 
式 挖掘 任务 ,就 需要 建立 源 对 象 级 的 不 确定 序列 数据 模型 ( 见 表 2. 3) 。 
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表 2.3 源 对 象 级 的 不 确定 序列 数据 模型 











eid 事件 W 

e (asd) (ol :0.6) (oz :0. 4) 

ez (a.b) (ol :0.3) (oz :0.2) (os :0. 5) 
es (b,c) (ol :0.7) (os :0.3) 








源 对 象 级 的 不 确定 序列 数据 模型 %" 概率 数据 库 D^ 是 由 若干 记录 ( 源 数据 对 象 ) 构 
成 的 有 序列 表 , 表 示 为 D? 二 《ni ore st ,ri,…，,r,) ,其 中 每 个 记录 r € D^ 表示 为 三 元 组 的 
形式 (eid,e,W): eid 是 事件 e 的 标识 符 ; W 为 源 数 据 对 象 集合 S 上 的 概率 分 布 ,表示 为 
二 元 组 (ac,c) ,其 中 co€ 5S, 而 且 c(0 过 c 达 1) 描 述 事 件 。 与 源 对 象 o 间 关 系 的 可 信和 度 , 存在 
SD c 1. 根据 可 能 性 世界 理论 ,概率 数据 库 D^ 中 一 个 可 能 性 世界 D * 的 产生 方式 为 : 


(oc) EW 


依次 将 每 个 事件 e; 指派 给 可 能 的 源 数据 对 象 ci (o; € W; Ho; € S), 3x FÉ. 8 Aid KR 
— Ceid; e; W;) € D^ 对 应 一 个 可 能 性 世界 , 枚 举 所 有 可 能 的 组 合 就 得 到 了 可 能 性 世界 的 
完整 集合 ( 见 表 2.4)。 假 设 D^ 中 与 每 条 记录 六 相关 联 的 所 有 分 布 都 是 随机 独立 的 , 则 


一 个 可 能 性 世界 D" 的 存在 概率 为 PrLD* ] = Il Prw Lo}. 在 表 2. 3 所 示 数 据 库 中 ,将 事 


TF ei es 和 es 分 别 以 存在 概率 0.6.0.3 和 0.7 指派 给 源 数据 对 象 o ,得 到 可 能 性 世界 D* 
的 存在 概率 Pr[ D* ]=0. 650. 3:X0. 7—0. 126, 

在 事件 级 的 不 确定 序列 数据 模型 中 , 源 对 象 是 确定 的 、 容 易 识别 的 ,而 与 之 关联 的 事 
件 本 身 是 不 确定 的 。 例 如 ,使 用 RFID 传感器 跟踪 建筑 物 内 雇员 行为 的 应 用 5 中 ,PEEX 
系统 记录 每 一 次 观测 行为 SIGHTING(1,tID,aID) ,意味 着 天 线 alD d t 时刻 检 测 到 了 标 
识 码 为 tID 的 RFID 传感器 。PEEX 系统 处 理 这 一 观测 行为 并 输出 更 高 层次 的 不 确定 关 
R.EI MEETING( time, personl . person2. room. prob) ,描述 的 是 该 PEEX 系统 观测 
到 在 time 时 刻 ,personl 和 person2 在 room 房间 ( 源 对 象 ) 进 行 了 一 次 会 面 ( 事 件 ) 的 概率 
是 prob。 这 里 ,天 线 位 于 固定 的 位 置 , 所 以 源 对 象 是 确定 的 ,而 事件 是 不 确定 的 。 因 此 ， 
在 序列 挖掘 模式 中 ,这 种 应 用 场景 需要 使 用 事件 级 的 不 确定 序列 数据 模型 来 描述 ( 见 
d 2.5). 
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表 2.4 数据 库 ( 表 2.3) 中 所 有 的 可 能 性 世界 






































Dp o 05 LA Pr[D* ] 
Dr (ad:0.6)(a.b:0.3) (b,c:0.7) o O 0. 126 
Dž (ad:0.6)(a,.b:0.3) o (b,c:0.3) 0.054 
Ds (a,d:0.6) (b,c:0.7) (a,b:0.2) O 0. 084 
Dé (a.d :0.6) (a 45:0. 2) (b,c:0.3) 0.036 
Di Cad :0.6) (b,c:0.7) o (a,b:0.5) 0.210 
Dé (a,d:0.6) o (a,b:0.5) (b,c: 0.3) 0. 090 
D? (a+b:0.3) (b,c:0.7) (asd:0.4) Oo 0. 084 
Ds (a+b:0. 3) (aycd:0.4) (b,c:0.3) 0. 024 
Ds (b,c:0.7) (a,d:0.4)(a,b:0, 2) O 0. 056 
Di | O (asd:0.4)(a,b:0. 2) (b,c:0.3) 0. 024 
Di | (b,c:0.7) (a.d :0.4) (ab:0.5) 0. 140 
D$ | O (a,d:0. 4) (a.b:0.5)(b,e:0. 3) 0. 060 














R25 事件 级 的 不 确定 序列 数据 模型 














-序列 
Di Ca «d:0.6) (a+b:0.3) (b,c:0.7) 
p (asd:0.4) (a+b:0. 2) 
Di (a1. 0) (a 45:0. 5) (b.c:0. 3) 


事件 级 的 不 确定 序列 数据 模型 ”概率 数据 库 D^ 是 由 户 -序列 Di ,Ds «Di s DA 
构成 的 集合 ,D? WAR i ESH. DP = (Cer ct Gc) em C 2000, IEH e; TE 
照 事 件 标识 符 eid 顺序 排序 ,cj 是 事件 e; 实际 发 生 的 可 信和 度 。 依 据 可 能 性 世界 理论 ,p- 序 
列 D? 中 的 每 个 事件 e; 都 存在 两 种 可 能 : 或 者 事件 e; 发 生 , 或 者 事件 e 不 发 生 ( 见 表 2. 6), 
假设 一 个 p- 序 列 中 的 所 有 事件 是 随机 独立 的 , 令 occurred (i srz an) Aa arg < 
ay RR. Do — Gu ren res ) 中 发 生 事 件 的 索引 标识 , 那么 一 个 可 能 性 世界 D; 的 存 
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在 概率 为 ProD) = [| cx [[ (一 co). 这 样 ,p- 序 列 D8 的 可 能 性 世界 如 
jE occurred j € occurred 

X 2.6 所 示 。 所 有 -序列 D? 的 可 能 性 世界 集合 PW(D?) 则 是 依次 提取 所 有 可 能 发 生 的 

2! 种 事件 ,然后 进行 排列 组 合 , 得 到 PW(D?) 二 PW(D?)XPW(D;)X…xXPW(Ds)。 对 


于 任意 D' EPW(D?),D* =(D} D} «D ses D), 可 以 计算 得 到 D” 的 存在 概率 : 


Pr[D* ] = ]TPrp: )。 例 如 ,假设 所 有 源 对 象 的 p- 序 列 是 相互 独立 的 ,一 个 可 能 性 世界 


D* OLK 2.7) 的 存在 概率 就 是 其 中 所 有 可 能 事件 的 存在 概率 积 : Pr[D* ]—0. 084X 
0. 32X0. 15=0. 004, 


R26 Ds 的 可 能 性 世界 














可 能 事件 存在 概率 积 
e (1—0.4) X (1—0. 2) —0.48 
(a) 0.4X (1—0. 2) —0. 32 
(b) (1—0. 4) X0. 2—0. 12 
(a) (b) 0. 4X 0. 2=0. 08 





R27 D 的 一 个 可 能 性 世界 D* 











源 对 象 可 能 事件 存在 概率 
Di (a.b) (b,c) 0. 084 
D; (asd) 0. 32 
D (a) (bso) 0.15 








2.4.2 不 确定 序列 模式 挖掘 技术 

大 多 数 序列 模式 挖掘 算法 都 是 基于 传统 频繁 项 集 挖掘 算法 的 改进 。 在 早期 的 序列 模 
式 挖掘 研究 中 ,通过 生成 -测试 产生 候选 模式 的 方法 最 为 常见 。 基 于 经 典 的 Apriori 算法 ， 
并 受到 Apriori 先 验 性 质 的 启发 ,科研 人 员 提 出 了 一 系列 类 Apiori 算法 用 于 序列 模式 挖 
掘 任务 ,如 AprioriAll, AprioriSome,DynamicSome 等 5] 。 其 中 ,Srikant 和 Agrawal?) 总 
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结 了 序列 模式 的 定义 ,在 序列 中 加 入 时 间 约 束 、 利 用 滑动 窗口 和 用 户 规定 的 分 类 ,提出 了 
一 种 基于 Apriori 的 改进 算法 一 一 GSP 算法 有 效 减 少 了 需要 扫描 的 候选 序列 ,提高 了 控 
掘 效 率 。 除 了 这 些 基于 Apriori 算法 .采用 水 平 数据 格式 的 序列 模式 挖掘 方法 之 外 ， 
Zaki’) 还 提出 了 一 种 基于 垂直 数据 格式 的 序列 模式 挖掘 方法 一 -SPADE 算法 。 考 虑 到 
候选 2- 序 列 的 数量 巨大 ,执行 连接 操作 的 时 间 复 杂 度 过 高 ,SPADE 算法 首先 将 数据 库 转 
换 成 垂直 数据 格式 ,进而 高 效 计算 2- 序 列 。 实 验 结 果 表明 ,SPADE 算法 大 大 减少 了 数据 
库 扫 描 次 数 ,取得 了 优 于 GSP 算法 的 良好 性 能 。 后 来 ,研究 人 员 又 提出 了 一 系列 基于 投 
影 的 模式 增长 算法 ,其 中 包括 Han 等 人 提出 Freespan 算法 中 以 及 Han 和 Pei 提出 的 
PrefixSpan 算法 5 。 与 GSP 和 SPADE 算法 相 比 ,模式 增长 算法 无 须 产生 候选 模式 , 进 
一 步 缩小 了 搜索 空间 ,而 且 算法 执行 过 程 中 需要 的 内 存 空间 也 更 加 稳定 。 此 外 , 近 几 年 也 
先后 出 现 了 更 多 有 效 的 改进 算法 ,如 结合 图 模式 生长 和 频繁 计数 的 结构 模式 挖掘 算法 
gSpanmm .基于 内 存 索引 的 MEMISP $E 30 、 基 于 正则 表达 式 约 束 的 SPIRIT 算法 Do 
等 。 还 有 基于 序列 模式 挖掘 方法 的 扩展 研究 ,如 闭 序列 模式 挖掘 、 并 行 挖掘 02090 、 分 布 
式 挖掘 29 多 维度 序列 模式 挖掘 中 和 近似 序列 模式 挖掘 中等。 这些 工作 为 后 来 的 不 
确定 序列 模式 挖掘 研究 奠定 了 技术 基础 ,提供 了 可 以 借鉴 和 学 习 的 研究 路 线 。 

相 比 于 确定 序列 数据 库 , 在 不 确定 数据 库 中 挖掘 序列 模式 需要 面 对 更 大 的 搜索 空间 ， 
挖掘 过 程 也 更 加 复杂 ,目前 已 知 的 基于 确定 数据 的 序列 模式 挖掘 方法 无 法 直接 用 于 解决 
不 确定 序列 模式 挖掘 问题 。 

在 早期 的 不 确定 序列 模式 挖掘 研究 中 ,基于 不 同 应 用 领域 的 各 种 不 确定 数据 模型 异 

彩 纷呈 。2003 年 ,Sun 等 中 研究 了 电信 网络 故障 分 析 应 用 中 的 时 序 事件 序列 ,针对 不 精 
确 事件 可 能 导致 排序 中 出 现 不 确定 性 的 问题 ,提出 了 精确 支持 度 的 概念 并 定义 了 不 确定 
序列 数据 模型 ,设计 实现 了 一 种 在 不 精确 事件 序列 数据 库 中 发 现 有 趣 模式 的 算法 。 该 研 
究 的 重要 贡献 是 提出 了 时 间 不 确定 性 问题 并 给 出 了 可 能 的 解决 方案 。2006 年 ,Yang 等 中 
针对 基因 序列 分 析 应 用 展开 研究 ,重点 关注 噪声 环境 下 挖掘 长 序列 模式 的 相关 问题 ,提出 了 
不 确定 兼容 矩阵 模型 ,用 于 描述 观察 数据 与 真实 数据 间 差 异 的 概率 值 。 作 者 还 提出 了 “匹配 
度 ” 的 概念 捕获 非 噪声 环境 下 序列 模式 的 “真实 支持 度 ”, 设 计 实 现 了 一 种 合并 统计 采样 和 边 
界 十 塌 技 术 的 不 确定 长 序列 模式 挖掘 算法 。 该 研究 的 不 足 是 未 使 用 可 能 性 世界 理论 解释 自 
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然 界 的 不 确定 性 ,其 数据 模型 也 无 法 描述 源 对 象 间 可 能 存在 的 不 确定 性 问题 。 

2010 年 ,Muzammal 和 Raman 首次 研究 了 概率 数据 库 中 的 不 确定 序列 模式 挖掘 问 
题 P9 ,并 提出 了 两 种 不 确定 序列 数据 模型 : 源 对 象 级 和 事件 级 的 不 确定 数据 模型 。 基 于 
可 能 性 世界 理论 定义 了 两 种 序列 支持 度 准 则 : 期 望 支持 度 和 概率 频 度 。 最 后 证 明了 源 对 
象 级 的 不 确定 数据 模型 中 概率 频 度 的 计算 问题 是 一 个 NP- 完 全 问题 。 此 外 ,Muzammal 
和 Raman 在 文献 [110] 中 给 出 了 两 种 在 不 确定 序列 数据 模型 中 计算 概率 频 度 的 具体 方 
法 ,进而 基于 可 能 性 世界 理论 挖掘 概率 频繁 序列 ,证 明了 在 事件 级 不 确定 数据 模型 中 可 以 
使 用 动态 规划 (DP) 的 方法 有 效 计算 频繁 序列 ,并 给 出 了 递 推 公式 和 计算 实例 。2011 年 ， 
Muzammal 和 Raman 研究 了 在 源 对 象 和 事件 相互 关联 的 概率 数据 库 中 挖掘 不 确定 序列 
模式 的 相关 问题 9 中。 针对 枚 举 所 有 序列 模式 并 计算 期 望 支持 度 的 时 间 、 空 间 开 销 巨 大 这 
一 问题 ,作者 采用 动态 规划 的 方法 计算 一 个 源 对 象 对 一 个 序列 的 支持 概率 ,进而 计算 出 所 
有 序列 模式 的 期 望 支持 度 ; 接 着 将 DP 算法 伐 入 到 候选 模式 生成 -测试 方法 中 ,探索 基于 序 
列 模式 格 的 广度 优先 (类 似 于 GSP 算法 ) 和 深度 优先 (类 似 于 SPAM 算法 ) 方 法 遍历 搜索 
空间 ;最 后 提出 了 增 量 支持 度 计算 和 概率 剪 枝 等 优化 措施 进一步 改善 CPU 开销 。2015 年 ， 
在 上 述 工作 的 基础 上 , Muzammal 和 Raman 又 提出 了 基于 模式 增长 框架 (类 似 于 
PrefixSpan 算法 ) 的 不 确定 频繁 序列 模式 挖掘 方法 中 ,减少 并 优化 了 动态 规划 中 繁复 的 
计算 过 程 ;最 后 针对 这 三 种 重要 的 不 确定 序列 模式 挖掘 算法 在 CPU 时 间 、 内 存 占用 和 可 
伸缩 性 等 方面 进行 性 能 评估 。 实 验 结果 显示 ,基于 模式 增长 的 方法 比 前 面 两 种 基于 候选 
模式 生成 -测试 的 方法 具有 更 好 的 综合 性 能 。 显 然 , Muzammal 和 Raman 在 不 确定 频繁 序 
列 模式 挖掘 方面 做 了 大 量 的 有 意义 的 研究 工作 。 这 些 工作 大 多 是 以 源 对 象 级 不 确定 序列 
构成 的 概率 数据 库 作 为 研究 对 象 ,依据 期 望 支持 度 衡量 序列 模式 出 现 的 频繁 程度 ,针对 不 
确定 序列 模式 挖掘 研究 进行 的 有 益 探 索 。 

2012 年 ,Hooshadat 研究 了 事件 级 不 确定 序列 数据 模型 下 的 频繁 模式 挖掘 问题 3] ， 
采用 期 望 支持 度 计算 不 确定 频繁 序列 并 提出 了 UAprioriAll 算法 。 该 算法 由 三 个 阶段 组 
R: 首先 U-Litemset 阶段 检测 1- 候 选 序列 并 挖掘 1- 频 繁 序列 ;然后 U- Transformation 阶 
段 删除 不 频繁 序列 并 通过 投影 操作 简化 概率 ;最 后 U-Sequence 阶段 在 转换 后 的 数据 集中 
采用 类 UA priori 算法 挖掘 不 确定 频繁 序列 。UAprioriAll 算法 是 第 一 个 基于 事件 级 不 确 
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序列 模型 的 挖掘 方 法 ,该 算法 的 计算 复杂 度 与 频繁 序列 的 数目 呈 线 性 增长 关系 。 同 年 ， 
Zhao 等 研究 了 事件 级 不 确定 序列 数据 模型 中 的 概率 频繁 序列 挖掘 问题 "5 ,提出 了 基于 
模式 增长 的 频繁 序列 挖掘 方法 一 一 U-PrefixSpan 算法 。 该 算法 采用 合并 剪 枝 技术 和 快速 
确认 策略 ,有 效 地 避免 了 “可 能 性 世界 爆炸 ”问题 ,进一步 改善 了 算法 的 执行 效率 。U- 
PrefixSpan 算法 是 目前 文献 中 第 一 个 基于 概率 频 度 挖掘 不 确定 频繁 序列 的 算法 。2013 年 ， 
Li 等 提出 了 基于 概率 频 度 的 不 确定 时 空 序列 模式 挖掘 5 方法 ,引入 带 有 间隙 约束 的 时 
空 概率 序列 模式 ,用 于 解决 不 确定 轨迹 数据 中 的 知识 发 现 问题 。 该 论文 采用 动态 规划 的 
方法 计算 时 空 序列 模式 的 概率 频 度 ,并 合并 广度 优先 和 深度 优先 搜索 策略 ,实现 了 有 效 的 

序列 模式 枚 举 算法 。 实 验证 明 ,该 算法 具有 线性 时 间 复 杂 度 。 接 着 , Wan 等 "9 提出 了 在 
事件 级 不 确定 序列 数据 模型 中 ,基于 概率 频 度 计算 频繁 序列 ,发 现 不 确定 序列 模式 的 精确 
挖掘 方法 和 近似 挖掘 方法 ,最 后 使 用 近似 技术 估计 概率 频 度 的 上 限 , 有 效 剪 枝 候选 序列 ， 
进一步 优化 算法 。 论 文 的 研究 成 果 表 明 : @ 在 目前 的 研究 中 ,尽管 近似 挖掘 方法 可 能 比 
精确 挖掘 方法 效率 更 高 ,甚至 带 来 多 个 数量 级 的 性 能 提升 ,但 是 在 基于 概率 频 度 的 不 确定 
序列 模式 挖掘 领域 ,与 精确 挖掘 方法 相 比 ,近似 挖掘 方法 对 性 能 的 提升 并 不 显著 ; 四 尽管 
人 们 认识 到 , 当 数 据 集 足 够 大 时 ， dese PPAR Lg A 
务 时 应 该 获得 相当 好 的 精确 度 ,然而 ,在 基于 概率 频 度 的 不 确定 序列 模式 挖掘 过 程 中 , 当 
频繁 序列 的 数目 有 限时 ,基于 二 项 分 布 的 近似 方法 却 获得 了 更 高 的 挖掘 精度 ; 加 在 运行 
时 间 方 面 , 优 化 方法 可 以 明显 提升 精确 挖掘 算法 和 近似 挖掘 算法 的 执行 效率 ,显著 提高 控 
掘 结 果 的 精度 。 此 外 ,Achar 等 2 也 研究 了 基于 概率 频 度 的 不 确定 频繁 序列 挖掘 问题 ， 
提出 了 基于 模式 增长 的 概率 频繁 序列 挖掘 算法 ,并 用 实验 证 明了 该 算法 的 性 能 明显 优 于 
基于 候选 模式 生成 -测试 的 类 A priori 算法 。 

近 两 年 , 随 着 大 数据 时 代 的 到 来 ,针对 不 确定 序列 模式 挖掘 方法 的 研究 又 呈现 出 新 的 
发 展 趋势 。2015 年 ,Ge 等 研究 了 大 规模 不 确定 数据 库 中 的 序列 模式 挖掘 问题 "9 ,设计 
了 一 种 迭代 的 MapReduce 框架 以 并 行 方式 管理 不 确定 序列 数据 ,执行 不 确定 序列 模式 控 
掘 任务 。2016 年 ,Aydin 等 提出 了 一 种 基于 图 理论 的 方法 挖掘 时 空 序列 模式 5 ,首先 将 
时 空 轨迹 序列 转化 为 有 向 无 环 图 ,然后 基于 模式 增长 的 方法 ,利用 图 的 有 向 边 发 现 频繁 出 
现 的 事件 级 序列 模式 ,避免 了 昂贵 的 候选 模式 生成 -测试 步骤 。2017 年 ,Fournier 综述 了 
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序列 模式 挖掘 的 研究 现状 和 发 展 趋势 ”2 ,指出 有 趣 子 序列 的 度量 标准 可 能 是 频 度 ,也 可 
能 是 长 度 或 利润 等 ;未 来 的 应 用 领域 也 不 仅仅 拘泥 于 生物 信息 学 、 在 线 学 习 、 购 物 篮 分 析 、 
文本 分 析 、 网 页 单 击 流 分 析 等 领域 ,而 是 拥有 更 加 广泛 的 应 用 前 景 ,如 物 联 网 、 社 会 网 络 分 
析 和 传感器 网 络 等 领域 ;不 确定 序列 模式 研究 与 其 他 流行 的 频繁 模式 挖掘 问题 正在 相互 
融合 ,并 呈现 出 新 的 特点 ,如 不 确定 序列 模式 挖掘 与 高 效用 项 集 挖 掘 5 或 加 权 频 繁 项 集 
挖掘 5 的 交叉 研究 等 ,这 为 广大 科研 工作 者 提出 技术 挑战 ,同时 也 带 来 新 的 研究 机 遇 。 


2.5 不 确定 频繁 子 图 模式 挖掘 


图 作为 最 常用 的 数据 结构 之 一 ,不 仅 可 以 描述 数据 的 各 种 属性 ,还 能 简单 方便 地 表达 
不 同 数据 间 的 结构 逻辑 关系 。 目 前 , 越 来 越 多 的 科学 领域 采用 图 数据 描绘 结构 复杂 的 研 
究 对 象 。 例 如 ,在 生物 信息 学 领域 ,利用 节点 描述 不 同 蛋 白质 分 子 以 及 化 合 物 的 属性 , 节 
点 之 间 的 边 表示 和 蛋白质 或 化 合 物 之 间 的 相互 作用 ;在 社交 网 络 中 ,图 中 的 节点 表示 社交 个 
体 ,节点 之 间 的 边 描述 个 体 之 间或 简单 或 复杂 的 交互 关系 ;在 无 线 传感器 网 络 中 ,网 络 节 
点 之 间 的 通信 抽象 为 图 中 节点 之 间 的 边 。 这 些 包含 着 大 量 节 点 和 边 的 “图 数据 ”形成 了 
一 定 的 拓扑 结构 ( 称 为 图 模式 ) ,多 个 图 模式 构成 了 图 数据 集 或 图 数据 库 。 例 如 ,生物 信息 
学 中 的 蛋白 质 交 互 网 络 ; 通 信和 领域 中 的 网 络 拓 扑 结 构图 ;互联 网 应 用 中 的 在 线 社交 网 络 和 
线 下 社会 活动 中 的 人 际 关系 网 等 。 这 时 ,如 何 从 已 有 的 图 数据 中 挖掘 出 数据 对 象 间 隐 仿 的 
关系 ,拓扑 结构 特征 ,形成 趋势 与 规律 等 有 用 信息 就 成 为 图 数据 挖掘 领域 的 重要 研究 课题 。 

在 实际 应 用 中 ,由 于 数据 的 获取 技术 有 限 ,数据 存储 、 传 输 过 程 中 受到 噪声 和 外 界 干 
扰 等 诸多 不 确定 因素 的 影响 ,实际 获得 的 数据 经 常 伴随 着 不 精确 ,不 完整 以 及 更 新 不 及 时 
等 问题 ,导致 不 确定 图 数据 的 广泛 存在 。 例 如 ,在 蛋白 质 交互 网 络 中 5 ,由 于 蛋白 质 的 测 
量 过 程 存 在 误差 且 生 物 实 验 技术 手段 有 限 ,研究 对 象 的 结构 特征 可 能 呈现 动态 变化 ,使 得 
某 些 分 子 结构 或 基因 片段 的 属性 无 法 精密 确定 。 因 此 ,将 蛋白 质 抽 象 为 节点 时 ,蛋白 质 间 
的 交互 作用 只 能 抽象 为 节点 之 间 具 有 概率 属性 的 边 , 其 中 概率 值 描述 的 是 这 些 蛋 白质 交 
互 在 自然 界 中 实际 发 生 的 可 能 性 。 这 样 , 蛋 白质 交互 网 络 就 抽象 为 不 确定 图 。 通 过 不 确 
定 图 分 析 研 究 蛋 白质 交互 作用 可 以 帮助 人 们 更 深入 地 了 解 疾病 ,针对 重大 疾病 和 疑难 杂 
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证 探索 新 的 治疗 方法 ,目前 已 广泛 应 用 于 纳米 生物 科技 等 研究 领域 。 在 无 线 传感器 网 络 
中 ,每 个 节点 都 具有 侦 听 、 睡 眠 等 多 个 状态 ,有 的 节点 还 可 能 因 电 能 耗 尽 而 失效 ,因此 ,网 
络 中 的 通信 链 路 只 能 以 不 完全 确定 的 形式 存在 ,各 节点 之 间 也 应 该 以 一 定 概率 连通 并 进 
£138 [53079 ,从 而 将 无 线 传感器 网 络 构建 为 不 确定 图 。 分 析 网 络 中 的 通信 状况 有 助 于 进 一 
步 优化 网 络 结构 、 提 升 网 络 工作 效率 和 改善 数据 传输 质量 。 在 社交 网 络 中 ,社交 个 体 之 
间 、 个 人 与 群 组 之 间 以 及 各 个 社区 之 间 ,都 可 能 存在 着 交互 关系 。 然 而 ,不 同时 间 段 内 社 
交 对 象 之 间 的 交互 频率 和 关联 强度 存在 差异 ,社交 网 络 的 结构 属性 常常 发 生动 态 变化 ,使 
得 不 同 个 体 之 间 以 及 个 体 与 社区 之 间 存 在 的 社交 关系 产生 不 确定 性 ,这 样 的 社交 网 络 也 
就 构成 了 不 确定 图 。 实 际 社会 生活 中 的 关系 可 以 通过 不 确定 图 中 用 户 通信 和 交互 的 记录 
分 析 得 出 ,进而 有 助 于 用 户 推荐 系统 的 构建 以 及 广告 和 资讯 的 精准 投递 。 

近年 来 ,针对 不 确定 图 的 研究 工作 取得 了 丰硕 成 果 , 但 目前 仍 无 法 满足 实际 应 用 的 广 
泛 需 求 。 主 要 原因 如 下 : 第 一 ,与 传统 的 确定 数据 相 比 ,图 数据 是 一 种 更 复杂 的 数据 结 
构 , 其 中 最 基本 的 比较 ,包含 等 简单 运算 在 图 数据 中 对 应 为 图 同 构 和 子 图 同 构 等 复杂 操 
作 。 而 图 同 构 问题 目前 没有 多 项 式 算 法 , 子 图 同 构 已 被 证 明 为 NP- 完 全 问题 。 图 数据 中 
的 许多 其 他 问题 如 节点 覆盖 问题 . 极 大 团 问题 等 也 都 被 证 明 是 NP- 完 全 问题 ,时 空 复杂 度 
非常 高 。 第 二 ,对 于 不 确定 数据 ,人 们 通常 使 用 可 能 性 世界 理论 进行 解释 和 研究 。 当 使 用 
“可 能 性 世界 ?模型 处 理 不 确定 图 数据 时 ,除了 考虑 原 有 图 数据 中 的 复杂 问题 ,还 需要 处 理 
图 数据 的 不 确定 性 语义 ,其 中 包括 相当 于 传统 数据 指数 级 的 可 能 图 实例 ,这 大 大 增加 了 挖 
掘 任务 的 复杂 程度 。 第 三 , 随 着 大 数据 时 代 的 到 来 ,可 以 获得 的 数据 量 呈 指数 级 增长 , 越 
来 越 多 的 不 确定 图 中 具有 海量 节点 和 连接 节点 的 边 , 即 使 是 简单 操作 ,数据 规模 的 增长 也 
使 得 计算 复杂 度 呈 指数 级 上 升 ,致使 传统 的 挖掘 算法 难以 有 效 执行 。 


2.5.1 不 确定 图 数据 模型 

在 不 确定 图 中 ,数据 的 不 确定 性 可 能 表现 为 多 种 类 型 。 第 一 种 情况 下 ,图 中 节点 或 边 
存在 的 可 能 性 在 现实 世界 中 并 不 明确 ,因此 ,通常 以 一 定 的 概率 描述 节点 或 边 真实 存在 的 
可 信 程度 ,这 称 为 图 数据 的 存在 结构 不 确定 性 ,强调 的 是 边 和 顶点 的 不 确定 性 , 且 边 和 顶 
点 的 概率 函数 是 相互 独立 的 ,它们 的 属性 是 确定 的 ;第 二 种 情况 下 ,图 中 节点 或 边 包 含 的 
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属性 取 值 是 不 确定 的 ,这 称 为 图 数据 的 属性 不 确定 性 ,强调 的 是 顶点 和 边 上 属性 的 不 确定 
性 ,各 属性 的 概率 函数 是 相互 独立 的 , 即 它 们 的 属性 是 不 确定 的 。 由 于 结构 不 确定 性 是 图 
数据 中 独 有 的 不 确定 性 数据 类 型 ,因此 在 不 确定 图 挖掘 领域 得 到 格外 关注 。 

在 确定 无 向 图 G 二 (V,E) 中 ,顶点 集 V 代表 实体 的 集合 , 边 集 EE 代表 实体 之 间 的 关 
系 。 若 顶点 对 u 和 w 之 间 存 在 连接 边 e,,, 王 (u,v) EE, 则 意味 着 顶点 u Mv 在 某 种 意义 
上 相 接 。 顶 点 wv 的 度 deg(v) 指 与 v 相 接 的 边 的 条 数 。 在 许多 情况 下 ,图 中 的 每 一 条 边 
e 需要 用 概率 值 p(e) 标 注 , 表 示 这 些 边 真实 存在 的 可 信 程度 。 这 也 意味 着 ,既然 一 条 边 以 
ple) 的 概率 值 出 现在 图 中 ,那么 这 条 边 不 在 图 中 出 现 的 概率 值 就 是 1 一 p(e)。 这 就 产生 
了 最 简单 的 不 确定 图 ,又 称 为 概率 图 。 显 然 , 概 率 图 g 二 (V,E,p) 是 一 个 三 元 组 ,其 中 
V 是 节点 的 集合 ,E 是 边 的 集合 ,p: E>(0,1] 对 应 边 存在 的 概率 值 。 一 种 广泛 用 于 分 析 
不 确定 图 的 理论 工具 是 可 能 性 世界 理论 。 根 据 可 能 性 世界 模型 ,每 一 个 可 能 性 世界 就 是 
一 个 不 确定 图 g 的 确定 性 实例 , 它 以 概率 的 形式 出 现在 不 确定 图 中 。 这 样 ,不 确定 图 g 可 
以 看 作 是 一 个 包含 2151 个 可 能 的 确定 图 数据 的 集合 {G 二 (V,Ec))s,cs。 如 果 G 可 以 是 
不 确定 图 g 的 一 个 可 能 性 世界 ,那么 G==(V ,Ec) 成 为 不 确定 图 g 的 一 个 可 能 性 世界 的 概 
率 ,可 以 通过 如 下 公式 计算 得 到 : 
PrGI o = [pc [[ a-»c» (2.2) 


e€ E; e€ E\Eg 

考虑 图 2. 1 中 不 确定 图 g 和 它 的 两 个 可 能 性 实例 Gi、G,。。 具 有 高 概率 值 的 边 在 不 确 
定 图 g 的 实例 中 更 频繁 出 现 ,因此 ,具有 高 概率 值 的 边 更 容易 形成 三 角形 ,出 现在 不 确定 
图 g 的 随机 实例 中 。 例 如 , 边 vicos A vs 都 在 可 能 性 实例 G A G 中 呈现 三 角形 结构 ， 
不 难 理解 其 原因 就 是 这 三 条 边 都 具有 较 高 概率 值 0.9, 因 此 ,它们 在 一 个 随机 实例 中 出 现 
的 概率 值 为 0.9X0.9X0.9 二 0.729; 而 三 角形 (vi «vi ,wv ) 在 一 个 随机 实例 中 出 现 的 概率 
为 0.5X0.2X0.9 二 0.09, 它 们 并 没有 在 实例 G MG 中 形成 三 角形 结构 。 

在 某 些 应 用 中 ,需要 在 确定 图 的 项 点 和 边 上 添加 标记 ,从 而 得 到 带 标 记 的 确定 图 。 这 
样 , 带 标记 的 确定 无 向 图 G 二 (V,E,3,L) 是 一 个 四 元 组 ,其 中 ,V 是 顶点 集 ,ESVXV 是 
边 集 ,5 ERWE, L: VUES 是 一 个 标记 函数 ,指示 需要 将 标记 赋予 图 中 的 顶点 或 /和 
边 。 同 样 , 带 标记 的 不 确定 图 就 是 一 个 五 元 组 : G 二 (V,E,3,L,p), 其 中 {V,E,35,L} 与 确 
定 图 中 的 定义 一 样 ,PE (0,1] 表 示 边 的 存在 概率 。 这 种 不 确定 图 实际 上 是 一 种 边 上 带 有 
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(b) G, (c) Gz 


图 2.1 概率 图 g 和 它 的 两 个 可 能 性 实例 ”3 


权 值 的 特殊 加 权 图 , 边 上 的 权 值 表示 该 边 在 其 连接 的 两 个 端点 之 间 实 际 存在 的 可 能 性 ( 见 
图 2.2)。 概 率 p 取 值 为 1 表示 这 条 边 一 定 存 在 ,确定 图 可 以 看 作 一 个 所 有 边 的 存在 可 能 
VE Eg 1 的 特殊 不 确定 图 ,而 一 个 不 确定 图 表示 其 弄 含 的 全 部 确定 图 上 的 概率 分 布 。 如 
果 确 定 图 I==(V',E’ ,5 .L') 被 不 确定 图 G= 二 (V,E,3,L,p) 蕴 含 ( 记 作 G 过 > 站, 则 TIT 和 G 
具有 相同 的 顶点 集 且 工 的 边 集 是 G 的 边 集 的 子 
集 , 不 确定 图 G 蕴含 确定 图 I 的 可 能 性 为 


P(G=>D = [[ pc) I[ a-pe) 


e€ E e€ E-E 





(2.3) 

4 Imp(G) 表 示 不 确定 图 G 蕴含 的 所 有 确 
定 图 的 集合 ,P(G 过 了 定义 了 样本 空间 Imp(G) 
上 的 一 个 概率 分 布 ( 见 图 2. 3)。 如 此 ,一 个 不 图 2.2 不 确定 图 数据 库 DU 
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确定 图 数据 库 实际 上 荀 含 着 一 组 确定 图 数据 库 , 即 Imp (DO 中 包含 2151 个 确定 图 


数据 库 。 假定 不 确定 图 数据 库 中 的 所 有 不 确定 图 相互 独立 , 则 不 确定 图 数据 库 D 蕴含 着 
确定 图 数据 库 d 的 可 能 性 为 


P(D>d) = [[ eG) (2.4) 
i=l 


B 


O OF DO oO oQ 9o © 


NI LUE 
© (90, (050, YG (20, (20, © 


I, L L i l; 1s 
P(G—1)-0.012 P(G—1)-0.012  P(G—1,-0.048 — P(G—1,)-0.008 — P(G—1,)-0.0048 — P(G—1,)-0.018 


B B B B 
e 'e 
y x 
i 
A A x 
©, © o B © 
h Is I, No Ny 
P(G—1,)-0.028 P(G—1,)-0.048 P(G—1,)-0.042 P(G—1,,-0.072 P(G1,,)-0.112 












Ti d3 ha ls lig 
P(G—1,5)-0.042 P(G—1,,)-0.072 P(G—1,,)-0.112 P(G-—1,,)-0.168 P(G—1,,)-0.168 


[82.3 不 确定 图 G 蕴含 的 全 部 确定 图 集合 上 的 概率 分 布 号 


类 似 地 ,对 于 一 个 不 确定 图 数据 库 D,P(D 二 >d) 定 义 了 样本 空间 Imp(D) 上 的 一 个 概 
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与 解决 确定 图 中 的 子 图 模式 挖掘 问题 相 比 ,处 理 带 有 存在 概率 的 不 确定 图 数据 ,对 传 
统 算法 的 执行 效率 提出 了 巨大 挑战 ,在 确定 图 中 用 多 项 式 算法 易于 解决 的 问题 ,对 应 出 现 
在 不 确定 图 中 会 因为 边 存在 的 不 确定 性 变 得 困难 重重 。 例 如 ,人 们 关心 的 是 节点 uw 和 w 
在 距离 阔 值 范围 内 彼此 可 达 的 概率 ,若是 在 传统 的 确定 无 向 图 中 ,这 两 个 节点 是 否 可 达 会 
有 明确 的 答案 ,计算 最 短路 径 长 度 问 题 是 一 个 很 普通 的 图 操作 ,可 以 用 Dijkstra 最 短路 径 
算法 在 多 项 式 时 间 内 解决 ;而 在 不 确定 图 中 ,计算 节点 是 否 可 达 的 概率 值 却 需要 昂贵 的 计 
算 代价 ,因为 该 问题 是 一 个 NP- 完 全 问题 。 图 数据 中 的 许多 其 他 问题 (如 最 近邻 问题 等 ) 
在 不 确定 图 数据 模型 中 也 遇 到 了 类 似 困难 。 


2.5.2 不 确定 频繁 子 图 模式 挖掘 技术 

频繁 子 图 模式 挖掘 (Frequent Subgraph Mining) 是 指 在 图 数据 集合 中 挖掘 出 现 频率 
(支持 度 ) 大 于 等 于 用 户 指 定 阅 值 的 公共 子 结构 (通常 指 连通 子 图 )。 常 见 的 频繁 子 图 挖掘 
算法 可 以 分 为 四 类 : 基于 Apriori 先 验 性 质 的 算法 、 基 于 模式 增长 的 算法 、 基 于 模式 增长 
和 模式 归 约 的 算法 以 及 基于 最 小 描述 长 度 的 近似 算法 。 

基于 Apriori 先 验 性 质 的 频繁 子 图 模式 挖掘 算法 依据 的 是 Apriori 反 单 调 性 : 如 果 一 
个 图 是 频繁 的 ,那么 它 的 任意 子 图 都 是 频繁 的 ;如 果 一 个 图 是 非 频繁 的 ,那么 它 的 任意 超 
图 都 是 非 频繁 的 。 早 期 的 确定 图 挖掘 算法 ,就 是 将 该 性 质 扩展 应 用 到 图 数据 集中 实现 有 
效 频 繁 子 图 模式 的 搜索 和 挖掘 任务 ,如 AGM (Aprior based Graph Mining) $34; ?9 、 FSG 
(Frequent Subgraph Discovery) 算 法 02 和 path-join # 35079, AGM 算法 基于 广度 优先 
搜索 ,逐步 增加 节点 个 数 扩展 子 图 模式 的 规模 ,直至 挖掘 出 所 有 频繁 子 图 ,特别 适合 执行 
稠密 图 数据 集 上 的 挖掘 任务 。FSG 算法 采用 逐步 增加 边 数 的 方法 对 子 图 模式 进行 结构 
扩展 ,并 利用 候选 子 图 剪 枝 等 策略 优化 和 提高 算法 的 性 能 。path-join 算法 依据 与 边 不 相 
交 的 路 径 数 目 衡量 子 图 模式 的 大 小 ,采用 新 的 支持 度 定 义 ,在 图 数据 集中 广度 优先 搜索 可 
能 的 频繁 子 图 。 基 于 Apriori 先 验 性 质 的 频繁 子 图 挖掘 算法 受 限于 其 固有 的 计算 效率 低 
和 占用 存储 空间 大 等 问题 ,致使 算法 的 挖掘 效率 不 高 。 

基于 模式 增长 的 算法 采用 深度 优先 策略 遍历 子 图 模式 空间 ,以 满足 规则 的 子 图 为 基 
础 扩展 产生 超 图 模式 ,直至 发 现 所 有 频繁 子 图 模式 。 基 于 模式 增长 的 算法 避免 产生 大 量 
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的 候选 子 图 ,在 扩展 子 图 模式 的 同时 进行 支持 度 计算 。 与 基于 Apriori 先 验 性 质 的 频繁 子 
图 挖掘 算法 相 比 ,该 类 算法 具有 更 高 的 挖掘 效率 。 

典型 的 基于 模式 增长 的 频繁 子 图 模式 挖掘 算法 包括 gSpan、MoFa、 FFSM (Fast 
Frequent Subgraph Mining) fll Gaston 等 52 。 这 些 算 法 的 主要 思想 是 : 通过 逐步 扩展 频 
繁 边 的 方式 递归 产生 边 数 加 1 的 候选 子 图 模式 ,利用 剪 枝 等 策略 删除 非 频 繁 子 图 ,直至 发 
现 所 有 的 频繁 子 图 模式 。 这 种 基于 模式 增长 的 算法 避免 了 搜索 过 程 中 繁复 的 连接 操作 ， 
改善 了 算法 的 执行 效率 。2002 年 ,Yan 等 提出 了 gSpan 算法 259 : 首先 依据 字典 序 重新 排 
列 图 数据 ;然后 采用 最 右 路 径 扩展 技术 , 仅 对 子 图 模式 最 右 侧 路 径 上 的 节点 实施 边 扩展 操 
作 ; 最 后 基于 深度 优先 搜索 策略 实施 频繁 子 图 模式 挖掘 操作 ,有 效 减 少 了 对 子 图 模式 的 宛 
余 探索 ,明显 提高 了 挖掘 效率 。Huan O° HE AY FFSM 算法 ,在 一 个 代数 图 框架 内 实 
施 垂直 搜索 策略 ,大 大 减少 了 元 余 模 式 和 候选 模式 的 数量 ,提高 了 挖掘 效率 。Nijssen 和 
Kok 基于 不 同 层 次 的 子 图 模式 彼此 包容 这 一 事实 ,提出 “快速 启动 ”原则 m3。 在 子 图 模式 
挖掘 过 程 中 ,首先 搜索 频繁 路 径 ,然后 是 频繁 自由 树 , 最 后 搜索 循环 图 。 其 主要 思想 是 将 
子 图 模式 挖掘 算法 划分 为 由 简 和 人 繁 .日 益 复 杂 的 开发 步骤 ,挖掘 过 程 更 为 简洁 .高效 。 

除 此 之 外 ,在 挖掘 过 程 中 遵循 减少 候选 子 图 数量 .缩减 图 数据 集 规模 的 原则 ,目前 的 
研究 成 果 中 出 现 了 各 种 “精简 ”的 子 图 模式 挖掘 算法 02 。 例 如 ,CloseGraph 算法 用 于 挖 
掘 闭合 频繁 子 图 模式 ;SPIN 和 MARGON 算法 用 于 挖掘 极 大 频繁 子 图 模式 ;ORIGAMI 
和 Sampling 算法 用 于 挖掘 有 代表 性 的 频繁 子 图 模式 ;LEAP 采用 解 耦 跳跃 搜索 和 支持 度 
递减 策略 挖掘 最 重要 的 频繁 子 图 模式 ;GraphSig 采用 图 空间 到 特征 空间 影射 的 方法 近似 
挖掘 重要 子 图 模式 ;SUBDUE 基于 最 小 描述 长 度 挖掘 近似 频繁 子 图 模式 ,等 。 

传统 的 频繁 子 图 模式 挖掘 中 ,一 个 子 图 模式 是 否 频繁 可 以 根据 其 支持 度 计数 来 衡量 。 
然而 , 当 图 数据 中 存在 不 确定 性 时 , 子 图 模式 是 否 出 现 应 以 存在 概率 作为 衡量 指标 ,因此 ， 
原 有 的 频繁 子 图 模式 定义 不 再 成 立 , 针 对 确定 图 数据 的 频繁 子 图 挖掘 方法 在 处 理 不 确定 
图 挖掘 问题 时 遇 到 了 极 大 困难 。 首 先 ,传统 的 图 数据 模型 无 法 描述 数据 的 不 确定 性 语义 ， 
并 且 传 统 图 挖掘 问题 的 定义 在 不 确定 图 数据 上 也 不 再 成 立 , 因 此 , 现 有 的 传统 图 挖掘 算法 
无 法 解决 不 确定 子 图 模式 挖掘 问题 ;再 者 ,不 确定 图 数据 库 中 子 图 的 数量 是 不 确定 图 数量 
的 指数 级 别 , 显 然 枚 举 所 有 的 子 图 模式 是 不 现实 的 。 也 就 是 说 ,不 确定 图 数据 的 出 现 使 得 
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控 气 任务 的 复杂 程度 急剧 增加 ,传统 的 图 挖掘 算法 无 法 处 理 结构 更 加 复杂 的 不 确定 图 数 
据 , 从 而 无 法 解决 难度 更 大 的 不 确定 子 图 模式 挖掘 问题 。 因 此 ,需要 设计 更 加 高 效 的 算法 
解决 不 确定 图 数据 库 中 频繁 子 图 模式 挖 据 问 题 。 

目前 ,不 确定 频繁 子 图 模式 挖掘 研究 仍 是 数据 挖掘 领域 的 研究 前 沿 ,主要 研究 成 果 体 
现在 如 下 几 个 方面 : 基于 不 确定 图 的 最 可 靠 子 图 模式 挖掘 ,不 确定 图 中 频繁 子 图 模式 挖 
据 \、 不 确定 图 上 有 代表 性 频繁 子 图 模式 挖掘 问题 等 。 

2007 年 , Hintsanen 首先 研究 了 不 确定 图 中 的 最 可 靠 子 图 模式 挖掘 问题 3, 定义 了 
基于 概率 的 最 可 靠 子 图 并 提出 了 MRSP 算法 。 该 算法 采用 贪 禁 启 发 式 方法 和 图 剪 枝 策 
We ,依据 伯 恩 鲍 姆 可 信 度 发 现 并 移 除 不 相关 的 边 ,挖掘 最 可 靠 频繁 子 图 模式 。2008 年 ,De 
Raedt 等 255 给 出 了 最 可 靠 频繁 子 图 模式 问题 的 一 阶 逻 辑 形式 ;依据 ProbLog 理论 的 压缩 
方法 ,使 用 二 元 决策 图 CBDD) 计 算 子 图 的 可 信 度 ,依次 移 除 可 信 度 最 小 的 边 后 再 次 进行 可 
信和 度 评价 并 剪 枝 , 直 至 挖掘 出 所 有 的 最 可 靠 频繁 子 图 模式 。 显 然 ,此 方法 得 到 了 更 好 的 挖 
掘 效 果 , 但 计算 成 本 较 高 ,在 处 理 大 型 图 数据 库 时 ,数量 巨大 的 重复 可 信和 度 计算 使 算法 的 
时 间 复 杂 度 过 高 。 这 也 说 明 避 免 大 量 匈 余 计算 的 方法 应 该 具有 更 好 的 性 能 。 针 对 上 述 两 
种 算法 存在 的 计算 复杂 度 问题 , Hintsanen 等 提出 了 两 种 旨 在 提高 大 图 中 MRSP 算法 执 
行 效率 的 新 方法 9 。 其 中 ,BPI 算 法 基于 最 优 路 径 增 长 思想 ,采用 启发 式 的 方法 逐步 
扩展 子 图 模式 ,然后 使 用 蒙特 卡 洛 剪 枝 获得 需要 的 最 可 靠 子 图 ;SPA 算法 基于 系列 并 行 
增强 思想 ,以 贪心 迭代 法 直接 优化 子 图 的 可 信 度 计算 效率 ,具体 方法 是 : 首先 使 用 组 合 规 
则 递归 定义 并 行 图 ,然后 通过 构建 系列 并 行 图 大 大 降低 可 信和 度 计算 的 复杂 性 ,同时 算法 采 
用 基于 图 数据 受 限 类 的 可 信和 度 计算 方法 ,提高 了 评估 的 有 效 性 。 这 两 种 改进 的 基于 贪心 
策略 逐步 扩展 子 图 模式 的 算法 对 原始 图 数据 的 大 小 并 不 敏感 ,有 效 解决 了 大 图 数据 中 的 
最 可 靠 子 图 模式 挖掘 问题 。2011 年 ,Jin 等 5 认识 到 最 可 靠 子 图 模式 的 精确 挖掘 任务 中 
计算 复杂 度 过 高 等 问题 ,采用 抽样 技术 设计 实现 基于 概率 的 高 度 可 靠 子 图 模式 近似 发 现 
方法 。 该 方法 首先 将 挖掘 任务 转换 为 确定 图 中 的 频繁 紧密 集 问题 ;然后 结合 新 的 剥离 技 
术 进 行 最 大 集 发 现 ,采用 深度 优先 搜索 枚 举 更 大 子 图 模式 。 实 验 结果 表明 ,这 种 两 阶段 法 
得 到 了 有 效 的 挖掘 结果 。 

2009 年 ,哈尔滨 工业 大 学 的 邹 兆 年 等 第 一 次 提出 不 确定 图 中 的 频繁 子 图 模式 挖掘 问 
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题 。 作 者 在 文献 L[138] 中 给 出 了 带 标记 的 不 确定 图 数据 模型 ;依据 期 望 支持 度 的 Apriori 
先 验 性 质 , 提 出 了 一 种 基于 深度 优先 搜索 的 频繁 子 图 模式 挖掘 算法 ,其 中 高 效 的 期 望 支持 
度 计算 方法 和 有 效 的 子 图 模式 搜索 裁剪 技术 ,将 计算 子 图 模式 期 望 支持 度 所 需 的 子 图 同 
构 测试 数量 成 功 地 从 指数 级 别 降低 到 线性 级 别 , 但 算法 中 期 望 支持 度 的 计算 代价 较 大 。 
在 证 明了 计算 子 图 模式 的 期 望 支持 度 是 一 个 NP- 难 问题 之 后 ,2009 年 ,Zou 等 提出 了 一 种 
在 不 确定 图 中 发 现 频繁 子 图 模式 的 近似 挖掘 算法 "9 。 通 过 对 子 图 模式 的 期 望 支 持 度 设 
置 一 定 范围 的 容忍 度 ,该 算法 试图 计算 一 个 es- 近似 频繁 子 图 模式 集合 ,并 以 较 高 的 计算 效 
率 找 到 近似 频繁 子 图 模式 ,避免 了 精确 计算 子 图 模式 的 期 望 支 持 度 所 带 来 的 困难 。 目 前 
针对 不 确定 性 问题 的 研究 表明 ,基于 期 望 支持 度 的 频繁 模式 定义 可 能 会 带 来 信息 丢失 问 
题 , 仅 适合 探索 不 确定 图 数据 的 内 在 结构 模式 ,而 概率 语义 下 的 频繁 子 图 模式 更 适合 提取 
不 确定 图 数据 中 的 具体 特征 ,所 以 ,基于 概率 频 度 的 频繁 子 图 模式 挖掘 技术 得 到 了 更 多 关 
注 。2010 年 ,Zou 等 定义 了 基于 概率 频 度 的 频繁 子 图 模式 ,提出 了 基于 概率 频 度 的 频 
繁 子 图 模式 近似 挖掘 算法 。 论 文 首 先 证 明了 概率 语义 下 的 频繁 子 图 模式 挖掘 问题 是 一 个 
NP- 难 问题 ,基于 动态 规划 的 精确 挖掘 方法 无 法 高 效 实 现 挖掘 任务 。 为 了 降低 计算 复杂 
BE ,文献 [141] 依 据 给 定 的 容错 度 e 计算 一 个 包含 伪 正 例 的 se- 近似 频繁 子 图 模式 集合 , 提 
出 了 基于 概率 频 度 挖掘 近似 频繁 子 图 模式 的 随机 算法 ,并 给 出 了 失败 概率 参数 $ 的 设置 
方法 以 保障 近似 挖掘 结果 的 质量 。 近 几 年 ,针对 上 述 算法 的 各 种 改进 和 优化 策略 相继 出 
现 。 例 如 ,2011 年 ,Jamil 等 在 不 确定 图 数据 中 加 入 边 权 重 因子 ,以 期 减少 子 图 模式 同 构 
检测 操作 ;针对 子 图 搜索 时 间 过 长 ,效率 较 低 的 不 足 , 提 出 基于 划分 思想 的 混合 策略 进 一 
步 提 高 算法 的 执行 效率 。2013 年 , 王 文 龙 提 出 旨 在 改进 不 确定 图 上 频繁 子 图 模式 挖掘 性 
能 的 MUSIC 算法 中。 该 算法 根据 Apriori 先 验 性 质 有 效 枚 举 可 能 的 子 图 模式 ,利用 不 
确定 图 数据 库 上 建立 的 UG 索引 减少 挖掘 过 程 中 计算 每 个 候选 模式 的 期 望 支持 度 所 需 的 
比较 次 数 , 并 采用 基于 待 检验 蕴含 图 的 调度 策略 和 剪 枝 优化 策略 进一步 提高 算法 性 能 。 
但 是 ,在 当前 文献 中 尚未 看 到 不 确定 频繁 子 图 模式 挖掘 突破 性 研究 成 果 。 

近 几 年 ,大 规模 图 数据 不 断 涌现 , 面 对 可 能 出 现 的 数量 庞大 的 图 模式 数据 集合 ,如 何 
挖掘 出 满足 实际 应 用 的 有 代表 性 的 频繁 子 图 模式 成 为 新 的 研究 热点 。2010 年 , 韩 蒙 等 提 
出 基于 随机 游 走 技术 的 &- 极 大 频繁 子 图 模式 挖 所 算法 "9 ,避免 枚 举 指数 级 别 候选 子 图 模 
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式 所 需 的 大 量 计算 开销 。2011 年 , Han 等 人 研究 了 从 不 确定 图 中 发 现 &- 紧 密 子 图 的 问 
题 " ,基于 树 搜索 策略 提出 枚 举 解 空 间 并 剪 枝 获 得 最 优 解 的 TreeClose 算法 ;针对 该 算 
法 在 处 理 大 图 数据 时 时 空 复 杂 度 过 高 等 问题 ,作者 又 提出 了 基于 贪心 策略 的 2- 近 似 算法 。 
邹 兆 年 等 也 提出 了 概率 语义 下 的 Top-k 极 大 团 挖 掘 问 题 和 相关 算法 " ,以 期 解决 蛋白 质 
复合 体 预 测 中 的 重要 应 用 问题 。2014 年 , Parchas 等 提出 不 确定 图 数据 中 有 代表 性 子 图 
实例 挖掘 问题 "9 , 旨 在 解决 指数 级 别 子 图 模式 中 的 查询 匹配 应 用 需求 ,并 给 出 两 种 典型 
算法 。2017 年 , 邹 兆 年 等 又 提出 不 确定 图 中 的 k-truss 分 解 问题 "7 。 所 谓 图 的 k-truss 
架构 是 指 图 中 最 大 边 的 导出 子 图 ,使 得 每 条 边 包 含 在 子 图 的 至 少 & 个 三 角形 结构 中 。 
哈尔滨 工业 大 学 李 建 中 教授 的 数据 挖掘 团队 在 不 确定 图 数据 上 的 频繁 子 图 模式 挖掘 
及 相关 研究 领域 做 了 大 量 工 作 , 科 研 成 果 斐 然 。 实 际 应 用 中 的 不 确定 图 数据 具有 数据 规 
模 大 数据 增长 率 快 .数据 更 新 频繁 等 特点 ,针对 不 确定 图 数据 的 新 应 用 不 断 出 现 , 基 于 不 
确定 图 数据 的 频繁 子 图 模式 挖掘 研究 面临 着 新 问题 .新 挑战 ,需要 科研 工作 者 不 懈 的 努力 





2.6 不 确定 高 效用 项 集 挖 掘 


传统 的 频繁 模式 挖掘 研究 只 考虑 项 目 在 数据 库 中 出 现 的 频 度 。 而 在 现实 应 用 中 ,人 
们 关注 的 焦点 可 能 包含 其 他 因素 ,如 利润 、 质 量 、 价 格 等 。 高 效用 项 集 挖 掘 就 是 在 同时 考 
虑 数量 和 利润 等 多 种 因素 的 前 提 下 解决 数据 库 中 的 频繁 模式 挖掘 问题 。 目 前 ,大 多 数 高 
效用 项 集 挖掘 算法 假设 存储 在 数据 库 中 的 信息 是 确定 的 。 然 而 ,在 不 确定 数据 环境 下 ,一 
个 项 目 出 现 与 否 通常 以 存在 概率 的 形式 来 描述 。 当 前 虽然 涌现 了 许多 高 效用 项 集 挖掘 算 

法 ,但 是 针对 不 确定 数据 的 高 效用 项 集 挖掘 方法 却 是 风 毛 鹿角。 不 确定 高 效用 项 集 挖掘 
成 为 新 的 研究 热点 。 





2.6.1 不 确定 高 效用 数据 模型 
高 效用 项 集 挖掘 (High Utility Item Set Mining) 是 基于 局 部 效用 (如 数量 ) 和 外 部 效 
用 (如 利润 ) 找 到 数据 库 中 罕见 的 高 效用 项 集 的 过 程 。 在 实际 应 用 中 ,高 效用 项 集 往往 是 
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数量 稀少 但 是 效用 (一 般 指 利润 ) 极 高 的 ,显然 基于 概率 频 度 的 不 确定 频繁 项 集 挖掘 算法 
无 法 实现 这 样 的 挖掘 任务 。 因 此 ,人 们 使 用 潜在 概率 来 描述 高 效用 项 集 , 这 里 的 高 潜在 概 
率 与 不 确定 频繁 项 集中 期 望 支持 度 这 一 度量 单位 类 似 。 

不 确定 高 效用 项 集 挖掘 技术 通常 用 在 不 确定 定量 数据 库 上 实施 挖掘 任务 。 实 际 上 ， 
不 确定 定量 数据 库 就 是 包含 利润 表 ( 效 用 表 ) 的 不 确定 数据 库 。 因 此 ,相应 的 不 确定 高 效 
数据 模型 也 分 为 元 组 级 和 属性 级 两 种 。 

元 组 级 不 确定 高 效用 数据 模型 59 令 J= (iris in) KR m 个 不 同 项 目 组 成 的 
有 限 集合 。 在 不 确定 定量 数据 库 D={T).T2 ,…',T,} 中 ( 见 表 2.8) ,每 条 事务 T,E DAS 
gq 三 nn) 是 由 不 同 项 目 构 成 的 项 集 , 是 集合 的 子 集 ,用 事务 标识 符 TID 表示 。 事 务 T, 包 
含 的 每 个 项 目 i 是 一 个 二 元 组 g G; ,numz, ) ,其 中 num, 表示 事务 T, 中 包含 项 目 i; 的 数 
量 。 每 条 事务 还 对 应 一 个 存在 概率 p(T,) ,描述 该 事务 (元 组 ) 出 现 的 可 能 性 。 此 外 ,数据 
库 中 的 每 个 项 目 i; 对 应 一 个 利润 值 pr; ,所 有 项 目的 利润 值 保存 在 一 张 利润 表 ptable 中 ， 
ARN ptable— (pri ,pr ,…,pr}。 示 例如 表 2.9 所 示 。 

















表 2.8 一 个 不 确定 定量 数据 库 
































TID 事务 (项 目 ,数量 ) 概率 
n (A.2) (C3) (E.2) 0.9 
T; (B;2) (CD; 0.7 
Ta (D (G.2 (C,1) (E43) 0.85 
T. (0,25 0.5 
T; (3) (OD.2  CE.D 0.75 
Ti (,2) (0,2 (O5) 0.7 
ds (A.D (G.D (OD.4) (CE.D 0.45 
Ts (B,4) CE. 0. 36 
Ta (A,3) (0,3 (D.2) 0.81 
Ti D (0.2 ED 0.6 
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表 2.9 利润 表 
项 目 A B C D E 
利润 4 1 12 6 15 


属性 级 不 确定 高 效用 数据 模型 4 A J= (iin in HA m Ar Af Il 3 H ZR AS 
有 限 集合 。 每 个 项 目 OS pm) y CIR uG,o. ME X 是 由 若干 项 目 组 成 的 非 空 
TREH XS iinet, tm). BREAN WE SEA BAPE D—UD T T) OLK 2. 10)， 
其 中 每 条 事务 T, (1 三 gq 三 n) 表 示 为 二 元 组 (TID,Y), 这 里 的 TID 2g 38 4e d iR Y = 
{yi (qr) «ys Gg e ,ym(qm)) 由 mm 个 不 同 单元 构成 ,每 个 单元 包含 一 个 项 目 y; 和 相应 的 
存在 概率 g;, 意 味 着 项 目 y; 出 现在 事务 TID 中 的 概率 为 g;。 除 了 不 确定 数据 库 之 外 ,还 
有 一 张 保存 所 有 项 目 利润 值 的 表 ptable= (pri ,prs，…,pr,) ,其 中 pr 表示 项 目 i; 对 应 的 
利润 值 ( 见 表 2. 9)。 


表 2.10 一 个 属性 级 不 确定 数据 库 



































TID 事 务 

T A(0.2) C(0.3) EX(0.2) 

qs B(0.2) D(0.3) 

qs A(.1) B(0.2) C(.1) E(0.3) 
Ti C(O, 2) 

T; B(0.3) D(0.2) E(0.D 

T; A(.2) C(0.2) D(.5) 

T: A(0.1) B(.D D(O.4) E(.D 
Ts B(0.4) E(0.1) 

Ts A(0..3) C(0.3) DX(0.2) 

To B(0.2) C(0.3) E(0.1) 


这 样 ,不 确定 高 效用 项 集 挖 掘 就 是 在 给 定 最 小 效用 阔 值 s 和 最 小 潜在 概率 阔 值 w 的 
前 提 下 ,挖掘 同时 满足 上 述 两 个 最 小 阔 值 要 求 的 所 有 项 集 的 过 程 。 这 里 ,事务 T, 中 一 个 
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项 目 i; WRAEK uG; T) —qG; T) X prG i28 4$ T, P-E X — isi, 的 效 
用 定义 为 u(X,T2s) = 》) uT); NTE X = iirin 在 数据 库 D 中 的 效用 定 


EXA XcT, 


义 为 x(X) = >) uOGTQO;—43RAE X = iiin 在 数据 库 D 中 的 潜在 概率 定义 为 


XST, AT ED 
Pro(X) = >) pr(X,T,); 一 条 事务 T, 的 事务 效用 定义 为 tu(T,) = X ulij,T,) ;一 


XST, AT ED j=l 


个 数据 库 的 总 效用 定义 为 TU = >) tu(T,)。 例 如 ,在 表 2. 8 所 示 元 组 级 不 确定 高 效用 数 


TED 

据 模 型 中 ,项 目 CEST, 中 的 效用 为 u(C, Tj) 2 q(C, Tı) X pr(C) =3 X 12= 36 Ji f 
{A,C} 在 事务 T, 中 的 效用 为 uCCA C) T) —uCA T) +u(C,T,) —qX(A T) X prCA) + 
q(C Ti) X prCC) 2X4 3X 12 —44 JE SE CA C) TE US PE D 中 的 效用 可 以 计算 得 到 ， 
uC(A,CD —uCGA,C) TO u(GASC) T) uA C) TUO tuC{A,C},T,) —444-164- 
324-48—140, 

同 理 ,在 表 2. 10 所 示 属 性 级 不 确定 高 效用 数据 模型 中 ,项 目 A 在 事务 T, 中 的 效用 
H u(A,T,)=q(A,T)) X prCA) =0. 2X 4=0. 8; 项 集 {A,C} 在 事务 Ty 中 的 效用 为 u({A， 
C}, TO -u(CA, T) H-u(C, Ti)=g(A,Ti) X pr(A) -q(C, Tj) X pr(C) =0. 2X 44-0. 3X 
12—4. 4,59 $8 (A. C) EGEE D 中 的 效用 可 以 计算 得 到 : CLA, C}) =u {A.C}, TO + 
ul({A,C}, T) FuCULA C) T.) -uCUA C) | T4) —4. 4+1. 6+3. 22-4. 8— 14, 

潜在 高 效用 项 集 挖 掘 问题 ”给 定 一 个 不 确定 数据 库 D、 数 据 库 的 总 效用 TU 用户 指 
定 的 最 小 效用 阔 值 ,用户 指定 的 最 小 潜在 概率 阔 值 ,不 确定 数据 库 中 的 潜在 高 效用 项 
集 控 掘 问题 就 是 发 现 那些 效用 值 大 于 等 于 seXTU ,并 且 潜 在 概率 大 于 等 于 wX|D| 的 所 有 
项 集 。 





2.6.2 不 确定 高 效用 项 集 挖掘 技术 

2003 年 ,Chan 等 首先 提出 高 效用 项 集 的 概念 中 ,并 设计 了 一 种 面向 特定 业务 目标 
的 Top- 高 效用 闭合 模式 挖掘 算法 。 鉴 于 同时 考虑 正 效 用 和 负 效 用 ,Apriori 先 验 性 质 不 
再 成 立 ,该 算法 设计 实现 了 新 的 低 效 用 项 集 弱 剪 枝 策略 。 用 户 无 须 指定 最 小 效用 阔 值 ,新 
算法 就 能 以 层次 挖掘 的 方式 找到 满足 业务 需求 的 高 效用 闭合 模式 。2004 年 ,Yao OY 
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研究 了 针对 项 集 间 效用 关系 的 挖掘 方法 。 不 仅 根据 事务 数据 库 中 的 信息 ,同时 兼顾 外 部 
效用 信息 准确 标识 高 效用 项 集 ,论文 确定 了 效用 边界 性 质 和 支持 度 边界 性 质 ,建立 了 基于 
上 述 两 个 性 质 的 效用 挖掘 数学 模型 。2005 年 ,Liu 等 提出 一 种 高 效 挖掘 高 效用 项 集 的 两 
阶段 模型 5 。 基 于 事务 加 权 向 下 闭合 性 质 ,两 阶段 模型 通过 剪 枝 策略 有 效 减少 候选 项 集 
的 数量 ,同时 准确 发 现 完整 的 高 效用 项 集 集 合 。2009 年 ,Ahmed 等 提出 基于 树 结构 的 高 
效用 项 集 增 量 挖掘 模型 一 一 IHUP 模型 2553 。 作 者 提出 了 三 种 树 结构 : 项 目 按 字典 序 排 
列 的 增 量 树 结 构 IHUPL-tree、\ 项 目 按 事务 频率 降序 排列 的 紧凑 树 结构 IHUPrr-tree、 项 目 
的 TWU 值 按照 降序 排列 的 加 权 事 务 效 用 树 结构 IHUPrwu-tree。 这 三 种 树 结 构 分 别 在 
简捷 易 处 理 、 空 间 复杂 度 低 、 时 间 复 杂 度 小 三 个 方面 各 具 优 势 。2011 年 ,Liu 等 提出 一 种 
无 须 产生 候选 项 集 的 单 阶段 挖掘 方法 9, 利用 前 级 扩展 产生 候选 项 集 ,通过 效用 上 界限 
定 搜索 空间 ,并 采用 新 的 树 结构 保持 挖掘 过 程 中 原始 的 效用 信息 ,从 而 达到 了 计算 紧 边界 
实现 强 有 力 剪 枝 , 直 接 快 速 识别 高 效用 项 集 的 目的 。 此 外 ,Tseng 等 也 提出 了 UP-tree 结 
构 和 两 个 高 效用 项 集 挖掘 算法 , 即 UP-growth 和 UP-growth* 算法 。Liu 等 提出 构建 效 
用 表 和 集合 枚 举 树 并 实现 有 效 剪 枝 的 HUI-Miner 算法 。Fourier 等 提出 考虑 2- 项 集 共同 
出 现 次 数 以 增强 剪 枝 效 果 的 FHM 算法 。 这 些 算 法 大 都 基于 传统 的 频繁 项 集 挖掘 方法 ， 
从 不 同 角度 设计 高 效 的 剪 枝 策略 ,实现 缩小 搜索 空间 ,提高 挖掘 效率 的 目的 。 

相 比 于 确定 数据 库 中 高 效用 项 集 挖掘 方法 的 累累 硕果 ,不 确定 高 效用 项 集 挖掘 作为 
一 个 新 兴 的 研究 方向 ,目前 成 熟 的 研究 成 果 届 指 可 数 。2015 年 ,Lin 等 首先 提出 不 确定 高 
效用 项 集 挖 所 中 的 科研 问题 9 器 ,发表 了 该 领域 的 第 一 篇 葛 基 性 论文 中 。 在 论文 中 ,作者 
给 出 元 组 级 不 确定 高 效用 数据 模型 和 潜在 高 效用 项 集 等 重要 定义 ,提出 潜在 高 效用 项 集 
挖掘 框架 (PHUIM) ,设计 了 有 效 的 不 确定 高 效用 项 集 挖掘 方法 一 PHUI-UP 算法 和 
PHUTI-list 算法 559 。 其 中 ,PHULUP 算法 基于 上 界 模型 ,采用 Apriori-like 框架 ,分 层 挖 
掘 不 确定 高 效用 项 集 。 作 为 PHUI-UP 算法 的 改进 版 本 ,PHUIlist 算法 基于 垂直 数据 格 
式 的 概率 效用 表 (PU-list) 建 立 集合 枚 举 树 结构 ,采用 两 种 向 下 闭合 性 质 进行 搜索 空间 剪 
枝 , 在 保证 完整 性 和 正确 性 的 同时 ,实现 高 效 的 不 确定 高 效用 项 集 挖掘 任务 。 实 验 结果 证 
明 这 两 种 算法 的 有 效 性 和 改进 算法 的 先进 性 。 几 乎 同时 ,Lan 等 也 研究 了 实际 应 用 中 的 
不 确定 高 效用 项 集 挖掘 问题 ,给 出 属性 级 不 确定 高 效用 数据 模型 ,并 提出 UHUI-Apriori 
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HAD, HF Apriori 先 验 性 质 无 法 直接 用 于 不 确定 高 效用 项 集 挖掘 任务 ,作者 提出 并 
证 明了 适用 于 不 确定 数据 库 的 HTWUI 向 下 闭合 性 质 a UHUI-Apriori 算法 
实施 有 效 的 剪 枝 操作 ,因而 在 时 空 代价 方面 取得 了 优 于 直接 搜索 方法 的 良好 效果 。 考 虑 
到 实际 应 用 中 挖掘 出 的 不 确定 高 效用 项 集 数 量 可 能 异常 巨大 这 一 问题 ,2016 年 ,Bui 等 提 
出 挖掘 不 确定 高 效用 闭 项 集 的 CPHUTLlist SE EO ,从 而 减少 了 输出 结果 的 数量 ,达到 了 
便于 信息 利用 的 目的 。CPHUTlist 算法 基于 新 的 PEU-list 数据 结构 ,采用 深度 优先 策略 
遍历 搜索 空间 。 通 过 高 加 权 事务 概率 的 向 下 闭合 性 质 剪 枝 非 闭合 的 潜在 高 效用 项 集 ， 
CPHUL list 算法 无 须 产 生 候选 项 集 ,并 能 有 效 挖掘 所 有 的 不 确定 高 效用 闭 项 集 。 

显然 ,不 确定 高 效用 项 集 挖掘 研究 作为 新 兴 的 科研 领域 ,目前 正 处 于 起 步 阶 段 。 实 际 
应 用 中 不 断 发 现 新 闻 题 ,需要 探索 新 的 解决 方案 ,促使 该 研究 不 断 向 新 的 方向 拓展 ,包括 
不 确定 高 效用 项 集 挖掘 与 流 数据 挖掘 2 .Top-& 模式 挖掘 2 和 序列 模式 挖掘 9 等 研究 
方向 的 交叉 和 互相 借鉴 。 


2.7 不 确定 加 权 频 繁 项 集 挖 掘 


在 传统 的 频繁 模式 挖掘 研究 中 ,假设 所 有 项 目 具有 相同 的 重要 性 ,从 而 忽略 了 不 同 项 
目 间 重要 程度 的 差异 。 而 实际 应 用 的 某 些 数据 库 中 ,出 现在 同一 事务 中 的 多 个 项 目 具 有 
权 值 不 同 的 重要 性 ,表示 它们 对 该 事务 存在 不 同 的 贡献 值 。 这 时 ,如 何 将 挖掘 焦点 转向 那 
些 拥有 较 大 权重 ,存在 更 重要 关系 的 项 目 ,而 不 是 潭 没 在 大 量 的 价值 甚 微 的 项 目 集合 中 ? 
为 了 解决 这 一 问题 ,得 到 实际 应 用 需要 的 更 有 价值 的 知识 ,挖掘 任务 可 能 在 带 有 项 目 权 值 
表 的 数据 库 中 进行 ,这 就 是 加 权 频 繁 项 集 挖掘 (Weighted Frequent Itemset Mining) 的 应 
用 需求 。 加 权 频 繁 项 集 的 权 值 表 中 保存 用 户 分 别 为 每 个 项 目 设置 的 权重 取 值 ,表示 利息 、 
风险 或 利润 等 ,反映 的 是 项 集 之 间 更 加 丰富 的 关联 信息 和 相互 作用 。 作 为 频繁 项 集 挖掘 
的 扩展 和 升级 ,加 权 频 繁 项 集 挖掘 在 实践 中 不 仅 考 虑 项 集 出 现 的 频率 ,同时 关注 项 目 之 间 
关系 的 重要 程度 ,在 实际 生产 和 生活 中 拥有 广泛 的 应 用 场景 ,因而 也 得 到 研究 人 员 的 持续 
关注 。 随 着 不 确定 数据 的 涌现 ,基于 不 确定 数据 库 的 加 权 频 繁 项 集 挖掘 技术 也 进入 人 们 
的 视野 ,并 且 即 将 成 为 一 个 崭新 的 研究 热点 。 


2.7.1 不 确定 加 权 数 据 模型 


令 I= {iy sing 
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,im}) 表 示 mm 个 不 同 项 目 组 成 的 有 限 集合 。 在 不 确定 数据 库 D= {TT ， 


Ty T, POR 2. 11) ,每 条 事务 T,ED 是 由 不 同 项 目 构成 的 项 集 , 是 集合 工 的 子 集 ， 
用 事务 标识 符 TID 表示 。 在 属性 级 不 确定 数据 库 中 ,一 条 事务 T, 包含 的 每 个 项 目 拥 有 
各 自 的 存在 概率 p G; T) ,描述 该 项 目 出 现在 当前 事务 中 的 可 能 性 。 此 外 ,数据 库 中 的 每 
AH E d; 对 应 一 个 权 值 ve GO ,所 有 项 目的 权 值 保 存在 一 张 权 值 表 wtable 中 ( 见 表 2. 12) , 表 
示 为 wtable= { wi, ) wiz) swin) } o 


R211 一 个 不 确定 数据 库 






































TID 事务 (项 目 ,概率 ) 

Ti (A.0.25) (C,0.4) (E.1.0) 

Ts (D,0.35) (F.0.7) 

T, (A.0.7) (B,0.82) (C.0.9) (E.1.0) (F,0.7) 

Ti (五 ,1.0) CF,0.5) 

Ty (B.0.4) (C.0.4) (D.1.0) 

Ts (A.0.8) (B.0.8) (C.1.0  (F.0.3) 

T; (B.0.8) (C.0.9 (D.0.5) (E.1.0) 

Ts (B.0.65) (E.0.4) 

Ts (B.0.5) (D,0.8) (F,1.0) 

Tw (A.0.4) (B.1.00 (C,0.9) (E.0.85) 

Xx 2.12 权 值 表 

项 目 B c D E F 
权 值 0.75 0.9 1.0 0.55 0.3 


给 定 一 个 不 确定 数据 库 D Se 7] UOI TH SE FEE BL (EE e 和 权 值 表 wtable, 不 确定 加 权 
频繁 项 集 挖掘 就 是 发 现 那些 满足 最 小 阔 值 条 件 的 所 有 项 集 的 过 程 *] 。 在 不 确定 加 权 频 
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繁 项 集 挖掘 任务 中 ,事务 T, 中 项 集 X( 由 & 个 项 目 组 成 ) 的 权 值 定 义 为 项 集 X 包含 的 所 


Sw G;+T,) 
有 项 目的 权 值 之 和 , M wX To = 18 — 
为 : p(X,T,) = [[pGi,T,); 一 个 项 集 XX 在 不 确定 数据 库 DD 中 的 期 望 支持 度 定义 为 : 在 


EX 


包含 项 集 X 的 所 有 事务 中 ,X 的 期 望 概率 之 和 , 即 expsup(X) = 2) p(X,T,) = 


XCT,AT,€D 


;项 集 X 在 事务 T, 中 的 存在 概率 定义 


D (TpGi,T,)); 一 个 项 集 X 在 不 确定 数据 库 D 中 的 期 望 加 权 支 持 度 定义 为 X 的 


XET AT ED iEX 


期 望 支 持 度 与 对 应 权 值 的 乘积 , BI expsup(X) = w(X) X expsup(X) = w(X) X 
BI p(X,T,)。 因 此 ,在 属性 级 不 确定 加 权 数 据 模型 中 ,如 以 表 2. 11 所 示 的 不 确定 数 


XCT,AT,€D 

据 库 和 表 2. 12 所 示 的 权 值 表 为 例 , 项 集 {A,C,E} 在 事务 Ti 中 的 权 值 为 w({A,C,E)， 
Ti) =(wCUA},T,)) +wOC}.T,) Hw (GLE) 4T)2)/3— (0. 24-0. 9+0. 55)/3=0, 55; 项 集 
{A,C,EE} 在 事务 T, 中 的 概率 为 pUA,C E}, T))— pCA Ti X BGC) TO X p GE), 
T1) —0. 2530. 4X 1.0—0. 1,3] 98 X dE As WHE CE D 中 的 期 望 支持 度 为 expsup({A， 
C,ED =pUA,C, E}, TU + pUA.C,E}.T3) - BCGUA CE) T) —0. 1+0. 634-0. 306— 
1. 036; 3848 X 在 不 确定 数据 库 D 中 的 期 望 加 权 支 持 度 为 expwsup({A,C,E}) 二 w({A， 
C,E})Xexpsup({A,C,E})=0.55X1.036=0.5698。 

不 确定 加 权 频 繁 项 集 挖掘 问题 给 定 一 个 不 确定 数据 库 D、 用 户 指 定 的 权 值 表 
wtable 用户 指定 的 最 小 期 望 加 权 支 持 度 阔 值 e, 不 确定 数据 库 中 的 加 权 频 繁 项 集 挖掘 问 
题 就 是 在 同时 考虑 权 值 和 期 望 概率 的 前 提 下 ,发 现 那些 期 望 加 权 支 持 度 不 小 于 最 小 期 望 
加 权 支 持 度 辣 值 的 所 有 项 集 。 例 如 ,对 于 项 集 义 , 告 满 足 expwsup(X) Se X 1D|, 则 项 集 
X 就 是 不 确定 加 权 频 繁 项 集 。 


2.7.2 不 确定 加 权 频 繁 项 集 挖掘 技术 

1998 年 ,Cai 等 建立 了 第 一 个 旨 在 挖掘 加 权 频 繁 项 集 的 数据 模型 09, 并 给 出 加 权 支 
持 度 的 计算 方法 ,即使 用 项 目的 支持 度 与 平均 权 值 的 乘积 来 度量 加 权 频 繁 项 集 ,然后 发 现 
并 证 明了 &- 支 持 度 边界 ,从 而 保证 了 基于 加 权 支 持 度 的 Apriori 先 验 性 质 ,并 用 于 实现 早 
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期 剪 枝 操作 ,进而 完成 有 效 挖掘 加 权 关 联 规则 的 任务 。2000 年 , Wang 等 研究 了 加 权 关 联 
规则 发 现 问题 并 提出 WAR 算法 De 。 该 算法 首先 生成 频繁 项 集 而 不 考虑 项 目 权 重 ,然后 
利用 作者 设计 的 有 序 收缩 法 从 这 些 频 繁 项 集中 得 到 加 权 关 联 规则 。 针 对 生成 更 长 加 权 频 
繁 项 集 的 迭代 过 程 中 产生 大 量 候 选项 集 这 一 问题 ,2003 年 ,Tao 等 改进 了 加 权 支 持 度 模 
型 ,提出 加 权 向 下 闭 包 性 质 ,解决 了 加 权 数 据 环境 下 “向 下 闭合 性 质 ? 失 效 问题 ,开发 了 一 
种 新 的 加 权 关 联 规则 发 现 方法 一 一 WARM 算法 Ps0 。 上 面 这 些 方法 都 是 基于 Apriori HE 
架 的 改进 。2005 年 ,Yun 等 提出 第 一 个 采用 模式 增长 架构 的 加 权 频 繁 项 集 挖掘 方法 一 一 
WFIM 415059 。 为 了 在 满足 权 值 约束 的 同时 保证 向 下 闭合 性 质 , WFIM 算法 依据 每 个 
项 集 的 权 值 和 支持 度 分 别 进行 搜索 空间 的 剪 枝 操 作 。 由 于 设置 了 最 小 权 值 和 权 值 范围 ， 
用 户 可 以 自主 平衡 项 集权 值 和 支持 度 的 重要 性 ,同时 大 大 减少 了 加 权 候 选项 集 的 数目 。 
实验 证 明 , 采 用 最 小 权 值 策略 的 WFIM 算法 更 适合 用 于 支持 度 较 小 的 稠密 数据 库 中 实现 
挖掘 任务 。2013 年 ,Vo 等 提出 基于 WIT-tree 结构 的 加 权 频 繁 项 集 挖 掘 方法 一 WIT-FWI 
以 及 改进 算法 。 实 验 结果 证 明 , 差 集 策 略 的 使 用 有 利于 进一步 提高 算法 的 执行 效率 。 
传统 的 上 界 模型 虽然 可 以 解决 加 权 频 繁 项 集 挖掘 问题 ,但 会 生成 大 量 的 候选 项 集 ,导致 算 
法 执行 效率 较 差 。 针 对 这 一 难题 ,Lan 等 提出 一 种 改进 模型 2s] ,通过 减少 候选 项 集 的 数 
量 进 而 缩短 执行 时 间 。 作 者 选择 一 条 事务 中 权 值 最 大 的 项 目 作为 该 事务 中 所 有 项 目 权 值 
的 上 界 , 进 而 提出 了 一 种 基于 投影 的 剪 枝 策略 ,有 助 于 在 挖掘 过 程 中 使 用 更 加 严格 的 加 权 
支持 度 上 界 ,提高 算法 的 执行 效率 。 实 验证 明 ,改进 后 的 新 模型 明显 优 于 包括 WARM 和 
WFIM 算法 在 内 的 其 他 加 权 频 繁 项 集 挖掘 方法 。2016 年 , Nguyen 等 提出 一 种 采用 区 间 
分 词 结构 存储 和 处 理事 务 集 的 新 方法 Ps 。 该 区 间 分 词 结构 使 得 事务 数据 库 中 项 集 之 间 
的 交 操作 得 以 迅速 完成 ,提高 了 在 稀疏 加 权 数 据 库 中 实现 挖掘 任务 的 执行 效率 。 此 外 , 作 
者 还 提出 为 所 有 单词 提供 一 个 1b( 比 特 ) 索 引 并 保存 在 映射 数组 中 ,然后 使 用 这 些 位 映射 
创建 一 个 项 集 的 Tidset 表 , 进 而 大 大 提高 加 权 支 持 度 的 计算 效率 。 实 验证 明 , 与 以 往 算 
法 相 比 ,该 方法 具有 明显 的 性 能 优势 。 

综 上 所 述 ,加 权 频 繁 项 集 挖掘 目前 仍 是 一 个 活跃 的 研究 领域 ,新 方法 、 新 技术 不 断 涌 
现 。 然 而 在 许多 现实 应 用 中 ,仅仅 输出 加 权 频 繁 项 集 并 不 能 满足 用 户 的 实际 需求 。 不 确 
定数 据 环境 下 的 加 权 频 繁 项 集 挖掘 应 用 进入 了 科研 人 员 的 研究 视野 ,成 为 一 个 备 受 瞩目 
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的 新 兴 研 究 方向 。 

相 比 于 确定 数据 库 中 加 权 频 繁 项 集 挖 掘 方法 的 累累 硕果 ,不 确定 加 权 频 繁 项 集 挖 掘 
领域 的 研究 成 果 目 前 是 凤毛麟角 。2016 年 ,Lin 等 首先 针对 不 确定 数据 库 中 的 加 权 频 繁 
项 集 挖 掘 问题 60 ,提出 一 种 高 期 望 加 权 项 集 的 新 模式 ,设计 了 一 种 有 效 的 加 权 频 繁 项 集 
挖掘 算法 一 一 HEWI-UApriori 算法 。 显 然 , 该 算法 采用 类 似 Apriori 的 两 阶段 法 实施 挖 

掘 任务 。 由 于 证 明 并 使 用 了 高 上 界 的 期 望 加 权 向 下 闭合 性 质 对 搜索 空间 实现 早期 剪 枝 ， 
该 算法 在 时 空 复 杂 度 和 发 现 的 模式 数量 等 指标 上 都 表现 出 明显 优势 。 后 来 ,Lin 等 针对 
HEWI-UApriori 算法 中 候选 项 集 数 量 巨大 和 时 间 复 杂 度 过 高 问题 进一步 改进 ,提出 了 无 
须 多 次 扫描 数据 库 且 不 产生 大 量 候选 项 集 的 HEWI-Utree 算法 9 中。 该 算法 使 用 三 种 新 
型 数据 结构 , 即 元素 (E)-table, 加 权 概率 (WP)-table 和 WP-tree 保存 重要 信息 ,进而 识别 
非 频繁 项 集 并 实现 早期 剪 枝 。 因 此 ,新 算法 在 时 空 复 杂 度 和 可 扩展 性 等 方面 获得 了 优 于 
HEWI-UApriori 算法 的 良好 性 能 。2016 年 ,Ahmed 等 扩展 了 加 权 频 繁 项 集 的 研究 内 容 ， 
提出 不 确定 加 权 相 关 模式 的 新 概念 9 , 即 在 加 权 的 不 确定 数据 库 中 发 现 项 集 内 各 项 目 之 
间 的 相互 关系 ,其 中 项 目的 权 值 用 于 描述 关系 的 重要 程度 ,进而 发 现 有 趣 的 加 权 频 繁 模 
式 。 为 了 解决 这 一 问题 ,作者 设计 了 WUIP-tree 结构 和 前 绥 代 理 机 制 改进 挖掘 性 能 并 取 
得 良好 效果 。 

此 外 ,Gan 等 也 提出 一 种 称 为 最 近 高 预期 加 权 项 集 的 新 模式 2 。 其 目的 是 在 同时 考 
虑 新 旧 程度 . 权 值 和 模式 不 确定 性 的 前 提 下 ,为 用 户 提供 最 新 的 相关 结果 ,以 满足 实际 应 
用 需求 。 同 时 ,Gan 等 还 提出 了 一 种 基于 投影 的 RHEWIP 算法 。 算 法 中 首先 引入 并 证 
明了 基于 排序 的 上 界 向 下 闭合 性 质 用 于 候选 项 集 的 剪 枝 操作 ,进而 提出 改进 的 RHEWI- 
PS 所 算法 ,并 通过 多 组 实验 验证 算法 的 有 效 性 。 

采用 投影 -测试 机 制 的 递归 算法 在 处 理 包含 长 模式 的 稠密 数据 库 时 会 产生 性 能 急剧 
下 降 的 问题 ,在 2017 年 发 表 的 论文 中 ,Lin 等 设计 了 基于 树 结构 的 RWFI-Mine 算法 73 , 
Sa E ee eee 安 据 问题 。Lin 提出 了 一 种 基于 集合 
这 种 最 新 加 权 频 繁 树 的 按 序 
向 下 闭合 性 质 ,用 于 RWFI 算 法 的 早期 前 枝 。 此 外 ,Lin 还 设计 了 用 于 信息 存储 的 元 素 表 
(E)-table 和 最 新 加 权 频 繁 表 (RWF)-table 两 种 数据 结构 。RWFI-Mine 算法 递归 发 现 最 
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新 加 权 频 繁 项 集 而 无 须 产生 候选 项 集 , 大 大 减少 了 计算 开销 和 内 存 占用 。 后 来 ,Lin 对 
RWFI-Mine 算法 进一步 改进 ,提出 了 RWFI-EMine 算法 。 该 算法 采用 为 2- 项 集 估计 权 
值 的 策略 ,避免 了 为 非 频繁 项 集 和 它 的 子 节点 建立 E-table 表 和 RWF-table 表 的 存储 开 
销 。 实 验 结果 表明 ,该 算法 不 仅 优 于 传统 的 最 新 加 权 频 繁 项 集 控 掘 算法 一 -PWA 算法 ， 
而 且 从 运行 时 间 、 内 存 占 用 和 可 扩展 性 等 指标 上 ,也 优 于 最 新 的 加 权 频 繁 项 集 挖掘 算 
法 一 一 RWFIM-P 和 RWFIM-PE 算法 。 这 为 解决 不 确定 数据 库 中 的 最 新 加 权 频 繁 项 集 
挖掘 问题 提供 了 良好 思路 。 

针对 不 确定 频繁 模式 挖掘 研究 ,从 上 面 的 综述 中 可 得 到 如 下 结论 。 

CD. 不 确定 频繁 项 集 挖掘 研究 成 为 不 确定 频繁 模式 挖掘 领域 的 研究 基础 ,其 他 不 确 
定 频繁 模式 挖掘 相关 工作 大 多 借鉴 或 基于 不 确定 频繁 项 集 挖掘 研究 的 相关 成 果 , 并 进 一 
步 改进 和 完善 。 实 际 上 ,目前 不 确定 频繁 项 集 挖掘 方法 基本 源 于 传统 的 确定 数据 库 中 三 
大 经 典 频 繁 项 集 挖掘 算法 ,并 进行 了 面向 不 确定 数据 库 的 适应 性 改进 。 目 前 不 确定 数据 
库 中 针对 序列 模式 ,图 模式 、 高 效用 项 集 以 及 加 权 项 集 的 频繁 程度 的 度量 ,理论 上 借鉴 了 
不 确定 频繁 项 集中 的 期 望 支持 度 和 概率 频 度 的 概念 ,具体 研究 思路 也 是 依据 传统 数据 库 
中 的 三 大 经 典 算法 ,或 是 生成 -测试 ,或 是 构建 树 结构 , 亦 或 是 依据 垂直 数据 格式 建立 
Tidlist 数据 结构 ,然后 构造 可 能 的 向 下 闭合 性 质 以 实现 早期 剪 枝 , 尽 可 能 地 缩小 搜索 空 
间 , 提 高 挖掘 效率 。 同 时 ,各 种 不 确定 频繁 模式 研究 方法 面 对 不 同 的 不 确定 数据 模型 又 进 
行 了 适应 性 地 改进 和 裁剪 。 如 此 看 来 ,针对 不 确定 频繁 项 集 的 研究 工作 也 是 其 他 不 确定 
频繁 模式 挖掘 方法 的 基础 ,可 能 为 其 他 不 确定 频繁 模式 挖掘 方法 的 研究 起 到 引领 和 借鉴 
作用 ,因此 ,本 书后 面 章节 重点 研究 不 确定 频繁 项 集 挖掘 问题 ,并 提出 可 能 的 改进 方案 。 

(2) 不 确定 高 效用 项 集 挖掘 和 不 确定 加 权 频 繁 项 集 挖掘 成 为 新 兴 的 研究 方向 , 颇 受 
人 们 关注 ,并 在 实际 应 用 中 占有 愈加 重要 的 地 位 。 近 两 年 , 随 着 人 们 认 知 水 平 的 提高 和 数 
据 提取 技术 的 突飞猛进 ,人 们 对 数据 挖掘 和 知识 发 现 的 需求 更 具 科 学 化 和 精细 化 。 为 实 
际 应 用 提供 个 性 化 的 精准 决策 ,而 非 普 适 性 的 一 般 常 识 , 促 使 不 确定 数据 库 中 各 种 “有 趣 
模式 ”的 挖掘 研究 得 到 极 大 关注 ,也 成 为 颇具 潜力 的 新 兴 研 究 方向 。 这 些 “ 有 趣 模式 ”的 相 
关 研 究 与 现实 应 用 的 结合 将 在 未 来 的 研究 和 应 用 中 占据 一 席 之 地 。 因 此 ,本 书 作者 也 把 
不 确定 高 效用 项 集 挖掘 和 不 确定 加 权 频 繁 项 集 挖掘 在 中 医 智能 诊疗 中 的 应 用 作为 将 来 的 
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研究 重点 。 

(3) 各 种 不 确定 频繁 模式 挖掘 技术 的 渗透 .交叉 和 融合 成 为 备 受 关注 的 研究 方向 ,并 
为 实际 应 用 提供 了 技术 支持 和 智力 保证 ,成 为 未 来 的 重要 发 展 趋势 。 其 实 ,不 确定 加 权 频 
繁 项 集 挖掘 技术 可 以 看 作 不 确定 频繁 项 集 挖 扎 技 术 与 加 权 频 繁 模式 挖掘 技术 的 交叉 和 渗 
透 ;在 某 些 实际 应 用 中 ,可 能 受到 关注 的 是 不 确定 高 效用 序列 模式 ,这 就 需要 不 确定 高 效 
用 项 集 挖 掘 技术 与 不 确定 序列 模式 挖掘 技术 的 相互 渗透 和 融合 ; 当 数据 库 中 频繁 项 集 数 
目 过 多 造成 挖掘 结果 存在 大 量 宛 余 , 致 使 挖掘 过 程 中 耗费 的 时 空 代 价 过 高 时 ,研究 者 可 能 
倾向 于 不 确定 频繁 模式 挖掘 与 闭 频繁 模式 挖掘 技术 的 融合 ; 当 挖 掘 结果 过 于 庞大 ,决策 者 
陷 人 难以 分 析 和 利用 的 窖 态 时 ,研究 者 呈现 给 行业 专家 的 应 该 是 不 确定 频繁 模式 中 前 
Top 个 最 有 趣 的 .最 具 潜 力 的 挖掘 结果 ,这 就 是 不 确定 频繁 模式 挖掘 与 Top-& 频繁 项 集 
挖掘 的 交叉 和 融合 。 显 然 , 随 着 不 确定 频繁 模式 挖掘 技术 在 实际 生产 和 生活 中 的 应 用 不 
断 深入 ,人 们 对 数据 挖掘 结果 的 呈现 要 求 更 加 科学 化 、 个 性 化 和 精准 化 。 因 此 ,各 种 不 确 
定 频繁 模式 挖掘 技术 也 会 互相 借鉴 ,相互 渗透 ,相互 融合 ,这 也 是 将 来 的 发 展 趋势 之 一 。 
针对 不 确定 中 医药 诊疗 数据 库 中 的 Top 频繁 闭 模式 挖 握 方法 ,本 书后 面 章 节 也 进行 了 
有 益 的 尝试 ,并 获得 了 初步 研究 成 果 , 这 也 激励 本 书 作者 在 后 面 的 研究 工作 中 进行 更 深入 
的 探索 。 





2.8 REINS 


本 章 综述 了 不 确定 数据 环境 下 的 主要 频繁 模式 挖 据 方 法 。 首 先 分析 了 数据 不 确定 性 
产生 的 原因 ,然后 分 别 介绍 不 确定 频繁 项 集 挖掘 、 不 确定 序列 模式 挖掘、 不 确定 频繁 子 图 
模式 挖掘 ,不 确定 性 高 效用 项 集 挖 掘 以 及 不 确定 加 权 频 繁 项 集 挖掘 等 方法 的 优 缺 点 ,分 析 
了 国内 外 发 展 前 景 , 最 后 对 不 确定 频繁 模式 挖掘 技术 进行 了 总 结 , 并 指出 未 来 可 能 的 发 展 
方向 。 
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前 面 章 节 简 单 介绍 了 频繁 模式 挖掘 的 主要 概念 ,背景 和 方法 ,分 析 了 目前 主要 的 不 确 
定数 据 模型 ,综述 了 各 种 不 确定 频繁 模式 挖掘 技术 ,并 指出 不 确定 频繁 项 集 挖掘 方法 是 其 
他 不 确定 频繁 模式 挖掘 方法 的 基础 ,后 者 大 都 借鉴 了 确定 数据 库 中 的 经 典 挖掘 算法 。 

本 章 主 要 讨论 基于 概率 数据 的 不 确定 频繁 项 集 挖掘 问题 和 相应 的 改进 策略 。 本 章 结构 
安排 如 下 : 3. 1 节 介绍 经 典 Eclat 算法 存在 的 不 足 并 证 明 一 个 关于 支持 度 的 性 质 ;3. 2 节 介绍 
面向 确定 数据 库 、 基 于 支持 度 排序 的 双向 处 理 策略 ;3. 3 节 介 绍 面向 不 确定 数据 库 、 适 用 于 概 
率 频 繁 模式 挖掘 的 双向 排序 策略 ;相关 实验 结果 及 分 析 在 3. 4 节 列 出 ;最 后 3. 5 节 对 本 章 内 
容 进 行 小 结 。 





3.1 基于 垂直 数据 格式 的 Eclat 算法 


3.1.1 存在 的 问题 

在 频繁 项 集 挖掘 中 ,项 集 支 持 度 的 计算 主要 采用 计数 和 交 操作 两 种 方法 1 。Eclat 
算法 是 首 个 采用 垂直 数据 格式 ,通过 交 操作 枚 举 所 有 频繁 项 集 的 算法 。 该 算法 采用 自 底 
向 上 的 深度 优先 搜索 ,引入 等 价 类 概念 将 搜索 空间 划分 为 多 个 不 重 辣 的 子 空间 ,然后 针对 
各 个 子 空间 内 的 候选 项 集 分 别处 理 。Eclat 算法 中 支持 度 计算 和 候选 项 集 生成 步骤 同时 
完成 ,通过 计算 两 个 项 集 的 Tidlist 交集 快速 得 到 候选 项 集 的 支持 度 。 若 候选 项 集 的 支持 
度 小 于 最 小 支持 度 阔 值 min_sup, 则 自动 删除 。 

由 上 述 处 理 过 程 得 知 ,Eclat 算法 可 能 存在 以 下 问题 57425 。 

(1) 候选 项 集 由 两 个 子 集 的 并 操作 产生 , 即 对 拥有 一 1 个 共同 前 级 的 两 个 有 -频繁 项 
集 进行 并 操作 产生 (k 十 1)- 候 选项 集 。 这 样 , 当 Tidlist 规模 庞大 时 ,完成 并 操作 ,通过 交 
操作 计算 候选 项 集 的 支持 度 都 会 耗费 大 量 的 时 空 代价 。 


54 /智能 数据 挖掘 一 一 面向 不 确定 数据 的 频繁 模式 


(2) Eclat 算法 采用 自 底 向 上 深度 搜索 的 方式 , 逆 字 母 表 顺 序 处 理 等 价 类 , 自 右 向 左 
通过 交 操 作 逐 步 挖掘 所 有 频繁 项 集 。 这 里 ,算法 没有 充分 利用 已 产生 的 支持 度 计数 信息 
缩减 候选 项 集 的 搜索 范围 。 

(3) Eclat 算法 没有 充分 利用 Apriori 先 验 性 质 对 候选 项 集 进 行 有 效 的 剪 枝 。 因 此 ， 
某 些 情况 下 ,Eclat 算法 产生 的 候选 项 集 数目 远 远 大 于 Apriori 算法 。 





3.1.2 支持 度 性 质 及 证 明 

猜想 支持 度 越 高 的 子 集 , 越 有 可 能 成 为 更 长 候选 项 集 的 一 部 分 ;而 支持 度 较 低 的 子 
集 , 构 成 更 长 候选 项 集 的 可 能 性 也 相对 降低 。 

证 明 数学 归纳 法 。 

任 选 项 集 XED, WREKE X 的 项 目 可 以 按照 不 同 顺序 排列 : X — nsa tnis 
Lmax ott t RRRA X 的 项 目 按照 支持 度 降 序 排列 ,而 X 5 {a1 s T2, tts Lmax} 
(max 为 整数 ) 表 示 项 目 按 支持 度 升序 排列 。 对 于 频繁 项 集 义 ,存在 sup Ha) < 
supl {x2 J) SS supCCrssci D K SUPC Ema) o WER AEF SEA > 作为 项 集 的 前 缀 ,并 对 
项 集 X 进行 扩展 从 而 生成 候选 有 -项 集 , 可 以 表示 为 1-item-extension(X): 二 Y 二 {y}UX。 

当 n 二 1 时 ,对 单元 素 频繁 项 集 X 进行 1- 项 集 扩展 。 根 据 Apriori 先 验 性 质 "m 
TE ,存在 : 

supCGraax) M Graci) X min(sup{Zmax} supra)? X sup {maxi }) 
supCGri) N (x2}) < min(sup{z,},sup{z2}) < supCGri )) 

定 supC{x1})<min_supSsup({2mac1}) 0 XEM H £mi Je IC RK LEUTE 
WY VA PE Jg fi BES 53 ^E EA Ba AAS ;而 项 目 zx 在 给 定 的 最 小 支持 度 阔 值 下 作为 非 频繁 
SHA BIL. TE sup({z1)) 三 min_sup 信 sup({xmx-1)) 这 一 前 提 条 件 下 ,给 定 不 同 的 最 小 
支持 度 阔 值 ,具有 较 高 支持 度 的 项 集 Cruci) EA WT Rie IB IS SEX. sup Cruci) Zi min 
sup。 也 就 是 说 ,与 ci 相 比 ,项 目 zw。_1 成 为 频繁 项 目的 可 能 性 更 大 ,因此 ,更 有 可 能 作为 
前 级 生成 更 长 候选 项 集 。 这 样 ,单元 素 频繁 项 集 X 在 进行 1- 项 集 扩展 时 ,支持 度 高 的 项 
集 有 更 多 机 会 构成 更 长 频繁 项 集 。 

假设 n=k 时 命题 成 立 。 存 在 (& 一 1) -频繁 项 集 X 和 频繁 项 目 y ,构成 项 集 X 的 所 有 


给 定 


第 3 章 Eclat 框架 下 基于 支持 度 的 双向 排序 策略 / 55 


项 目 可 以 按照 不 同 顺序 排列 : 按 支 持 度 降 序 排列 可 以 表示 为 X — (na tea tt tr} HK 
支持 度 升序 排列 可 以 表示 为 X={zi,z，…zci}。 下 面 分 别 用 zy,y 做 前 级 对 项 集 

进行 扩展 进而 生成 候选 -项 集 , 表 示 为 如 下 形式 : Yi = (rr) U XS Gn U {£r Ti 
esri} Y= (y) UX =S {y} U {rr rei}. 存在 supy D sup Ca D & 
ee hoi aaa sup({y,} UX)<sup({2,} UX) 成 立 , 即 前 级 
x, 有 更 多 机 会 参与 生成 更 长 频繁 项 集 。 

当 n=k +1 时 ,对 大 频繁 项 集 X. 进行 1- 项 集 扩展 的 情况 。 构 成 项 集 X 的 项 目 按照 
支持 度 升序 排列 ,可 以 表示 为 sup C{ 21 ) S supCUs ) e+ supCUn a })<supC{a,})< 
sup(C{zerl))。 下 面 分 别 用 acusa 、zi WTS PRISE X 进而 生成 候选 (十 1)- 项 集 , 表 示 
为 如 下 形式 ; Zi = {zr} U (zyzeiyza 0s x1) = (zi } UYi; Z= (z1) U (yas 
EEE 1) 1} UY: FEP supC zi D S supCOoyi D x S supCGr, D S supCUorgea )2. 

ois 或 反 单 调 性 ,比较 不 同 排序 方式 下 (十 1)- 项 集 的 支持 度 计数 ， 
supl (zei) U Yi) N CGa) U Yi) 过 min(Csup(C(zea U Yi) supl {zi} U Yi» 
雪人 

sup(({z1} U Y2) N CGi) U Y?) < min(supC(zi) U Y2)),sup({91} U Y2)) 

< supC(zi) U Yi) < sup({y,} U Yi) < sup({y,} U X) 

给 定 最 小 支持 度 国 值 min_sup, 满 足 如 下 不 等 式 : supy) UX) Si min. sup 
supCGx, UX). HUE n=k ERER supy) UX)<supC{ xy} UX) WRZ AFARA ER 
支持 度 的 项 集 {x)UX EA RT AEW ERE supl r) UX) >min_sup, M.A ICR 
频繁 项 集 做 前 缀 对 频繁 项 集 X 进行 1- 项 集 扩展 时 ,支持 度 较 高 的 前 级 zt+: 有 更 多 机 会 参 
与 生成 更 长 频繁 项 集 。 因 此 , 当 "一 A 十 1 时 ,命题 成 立 。 

结论 : 用 单元 素 频繁 项 集 做 前 缀 对 频繁 项 集 X 进行 1- 项 集 扩 展 时 ,上 述 猜想 成 立 。 

使 用 相似 方法 ,可 以 证 明 任意 长 度 的 频繁 项 集运 用 并 运算 对 频繁 项 集 X HET k- R 
扩展 ,并 用 两 个 & 一 1 频繁 项 集 的 交 运 算 产生 候选 全 项 集 时 ,上 述 猜想 均 成 立 。 因 此 得 到 
了 关于 支持 度 的 性 质 

性 质 3.1 支持 度 越 高 的 子 集 , 越 有 可 能 成 为 更 长 候选 项 集 的 一 部 分 ;而 支持 度 较 低 
的 子 集 ,构成 更 长 候选 项 集 的 可 能 性 也 相对 降低 。 
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3.2 基于 支持 度 排 序 的 双向 处 理 策 略 


依据 支持 度 性 质 ,本 节 提 出 基于 支持 度 排序 的 双向 处 理 策 略 , 并 对 传统 的 Eclat 算法 
进行 改进 ,提出 Bi-Eclat 算法 。Bi-Eclat 算法 的 核心 思想 是 : 在 存储 事务 时 , Tidlist 结构 
中 的 数据 按 支持 度 降序 排列 以 提高 数据 存储 的 紧 致 性 ,改进 存储 效率 ;在 支持 度 计数 并 产 
生 频 繁 项 集 阶段 ,参与 计算 的 (k 一 1)- 频 繁 项 集 按 支 持 度 升序 排列 ,以 减少 元 余 操作 ,提高 
计算 效率 , 进而 达到 提升 整个 算法 性 能 的 目的 。 


3.2.1 支持 度 升序 排列 阶段 

在 频繁 项 集 发 现 阶段 ,候选 项 集 的 规模 对 算法 的 执行 效率 有 着 举足轻重 的 影响 。 
Eclat 算法 基于 字母 表 顺 序 自 底 向 上 搜索 频繁 项 集 , 因 此 ,候选 项 集 的 数量 主要 取决 于 划 
分 的 等 价 类 尺寸 和 需要 搜索 的 存储 空间 范围 。 由 于 Eclat 算法 没有 基于 支持 度 并 依据 
Apriori 先 验 性 质 对 候选 项 集 进 行 有 效 剪 枝 , 随 着 Tidlist 结构 的 规模 不 断 增 大 ,算法 效率 
显著 降低 。 

考虑 到 支持 度 计算 中 采用 不 同 排序 方式 对 频繁 项 集 生成 效率 的 影响 ,基于 上 述 支 持 
度 性 质 对 Eclat 算法 进行 改进 。 在 频繁 项 集 产生 阶段 ,候选 项 集 及 构成 候选 项 集 的 项 目 
按照 支持 度 升序 排列 并 参与 交 运算 和 支持 度 计算 。 采 用 这 一 策略 的 出 发 点 主要 体现 在 如 

下 两 个 方面 。 

(1) 对 构成 候选 项 集 的 项 目 按照 支持 度 升序 排列 后 ,首先 选取 支持 度 较 低 的 项 目 作 
为 前 缀 扩展 生成 更 长 频繁 项 集 。 这 样 ,具有 较 低 支持 度 的 项 目 首先 参与 交 操作 ,在 计算 过 
程 中 一 旦 检查 出 支持 度 小 于 min_sup 的 非 频繁 节点 就 立即 终止 计数 过 程 ,减少 了 实际 访 
问 的 项 目 数量 ,避免 了 后 续 的 元 余 操 作 。 例 如 , 当 确 定 候选 项 集 {A,B,E} 时 , 若 采 用 字母 
表 顺 序 ( 即 A=B 二 CD<E) 自 底 向 上 深度 搜索 ,需要 依次 访问 项 目 A、B 并 运行 交 操作 ， 
经 过 支持 度 计 数 模块 ,与 最 小 支持 度 国 值 min_sup 比较 后 ,产生 候选 项 集 {A,B) ;在 试图 
访问 非 频 繁 项 集 {A,E} 时 ,搜索 终止 。 如 果 采 用 支持 度 升序 排列 (不 妨 设 为 ED 二 C= 
A<B) ,首先 访问 项 目 EE.A, 由 于 项 集 {E,A}) 是 非 频 繁 的 ,搜索 终止 ,避免 了 对 频繁 项 集 
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(E. B (A.B) Wii. 

(2) 按照 支持 度 升序 自 底 向 上 搜索 ,进而 确定 长 度 为 & 的 候选 项 集 。 根 据 支持 度 的 

质 , 支 持 度 较 低 的 子 集 构成 更 长 候选 项 集 的 可 能 性 相对 降低 ,因此 ,首先 处 理 这 些 支 持 
aa 及 早 甄别 出 非 频繁 项 集 ,然后 立即 终止 搜索 过 程 , 从 而 避免 对 所 有 频 
繁 子 集 的 访问 ,减少 了 更 长 频繁 项 集 生成 过 程 中 的 元 余 操 作 。 而 在 传统 的 Eclat 算法 中 ， 
采用 字母 表 顺 序 依 次 访问 & 个 频繁 子 集 并 基于 频繁 子 集运 行 (k 一 1) 路 交 操作 后 ,才能 确 
定 长 度 为 的 频繁 项 集 。 

由 此 可 见 , 在 频繁 项 集 产生 阶段 ,使 用 支持 度 升序 排列 独 具 优 势 。 除 了 可 以 依据 
Apriori 先 验 性 质 , 对 非 频 繁 项 集 及 早 剪 枝 外 ,还 可 利用 支持 度 性 质 ,减少 更 长 频繁 项 集 产 
生 过 程 中 频繁 子 集 间 的 宛 余 操作 ,缩小 搜索 空间 ,避免 对 支持 度 计 数 模 块 的 重复 调用 。 


3.2.2 支持 度 降序 排列 阶段 

Eclat 算法 需要 对 (一 1)- 项 集 进 行 交 操作 ,获得 k SEIT LE Tidlist 结构 中 事务 元 素 
的 个 数 ,进而 得 到 候选 上 项 集 的 支持 度 。 因 此 ,在 事务 存储 管理 方面 ,内 存 中 显然 需要 存 
放 连 续 层次 的 Tidlist 表 , 用 于 计算 产生 新 一 层 的 频繁 项 集 。 这 些 频繁 项 集 通 常 存放 在 哈 
希 树 中 以 便 快速 查找 其 对 应 子 集 。 这 样 ,由 于 哈 希 树 自 身 的 局 限 性 ,再 加 上 子 集 只 是 按 北 
字母 序 处 理 , 无 法 有 效 使 用 支持 度 信 息 , 所 以 在 实验 中 发 现 c5 ,Eclat 算法 中 剪 枝 操 作 并 
没有 呈现 出 显著 优势 。 

为 了 达到 有 效 存储 的 目的 ,可 以 使 用 支持 度 降序 排列 的 前 级 树 存储 事务 ,原因 是 : 根 
据 支 持 度 性 质 ,支持 度 较 高 的 项 目 更 有 机 会 出 现在 前 级 中 ,出 现在 不 同 长 度 的 频繁 项 集 
中 ,参与 操作 的 次 数 也 较 多 。 在 这 种 存储 方式 中 ,支持 度 越 高 的 项 目 越 接 近 根 节点 ,在 访 
问 时 需要 的 步 数 也 越 少 ,有 助 于 实现 访问 节点 项 目的 总 代价 最 小 化 。 


3.2.3 频繁 项 集 挖掘 中 的 双向 处 理 策 略 

在 存储 管理 上 ,使 用 支持 度 降序 排列 的 前 级 树 存 储 事务 ;在 支持 度 计数 期 间 , 选 择 支 
持 度 升序 排列 以 减少 生成 候选 项 集 的 元 余 步 又。 为 了 同时 满足 这 两 个 要 求 ,算法 的 具体 
实现 采用 如 下 策略 : 在 内 存 中 ,项 目 按照 支持 度 降序 存储 ; 当 项 目 从 内 存 中 取出 时 ,只 需 
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简单 地 将 每 一 个 项 目的 位 置 反 转 ,按照 支持 度 升 序 排列 后 参与 频繁 项 集 产 生 过 程 


3.2.4 Bi-Eclat 算法 
Bi-Eclat 算法 的 主要 步骤 如 下 。 
步骤 1 扫描 事务 数据 库 发 现 1- 频 繁 项 集 ,对 Tidlist boned 
排列 : 首次 扫描 数据 库 并 将 水 平 格式 表示 的 数据 转换 成 垂直 数据 格式 。 这 时 ,项 集 的 支 
持 度 就 是 其 对 应 的 Tidlist 长 度 。 jua aa A 1- 
频繁 项 集 ,并 将 它们 按照 支持 度 降序 排列 。Bi-Eclat 算法 中 频繁 项 目 产生 模块 的 算法 如 
算法 3.1 所 示 。 





算法 3.1 Bi-Eclat 算法 : 频繁 项 目 产生 模块 。 


输入 : 重 直 数据 格式 的 数据 库 D, 项 目 集合 SSD, te) Sc FERE MAL min. sup. 
输出 : 按 支 持 度 降序 排列 的 单元 素 频繁 项 集 。 
1: Procedure find frequent l-itemsets 
2; For all atoms A; € S do 
3: For all transactions T; € A; do 
| tid-list(A;) | =| tid-list(A;) | +1; 





4 
5 end for 

6: For all A;€S, with | tid-list(A;) | Zmin sup do 
7 Sorting A; in the descending order of support; 
8 end for 

9: S=SU{A;}; TST: U{A;}; 

10: end for 





步骤 2 基于 前 级 的 等 价 关 系 将 搜索 空间 划分 为 较 小 的 子 空间 ,依据 A priori 先 验 性 
质 , 利 用 频繁 人 项 集 构 造 (& 十 1)- 候 选项 集 : 构建 等 价 类 时 ,使 用 事务 数据 库 中 的 频繁 项 
目 ,从 支持 度 最 低 的 原子 类 集合 开始 ,依次 对 支持 度 升 序 排列 的 原子 项 目 进行 并 操作 , 生 
成 候选 项 集 ; 接着 对 原子 项 目 所 在 的 Tidlist 结构 进行 交 操 作 , 计 算 候 选项 集 对 应 的 
Tidlist 长 度 , 得 到 支持 度 计 数 。 重 复 该 过 程 ,直至 无 法 找到 新 的 频繁 项 集 或 候选 项 集 为 
止 。 这 样 ,通过 对 任意 两 个 原子 项 目 或 有 子 集 进行 交 运 算得 到 所 有 (k 十 1)- 项 集 的 支 
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持 度 。 

步骤 3 ”对 候选 项 集 剪 枝 并 挖掘 所 有 频繁 项 集 : 此 阶段 ,算法 根据 Apriori 先 验 性 质 
删 去 非 频 繁 项 集 ;并 利用 支持 度 升序 排列 的 优势 ,根据 支持 度 性 质 , 及 早 甄别 出 非 频 繁 项 
集 ,减少 元 余 交 运算 。 这 样 ,BEclat 算法 可 以 递归 挖掘 出 所 有 频繁 项 集 。Bi-Eclat 算法 
中 候选 项 集 产 生 模块 的 算法 如 算法 3. 2 Bron 。 





算法 3.2 BiEclat 算法 : 候选 项 集 产 生 模 块 。 
输入 : 按 支持 度 升序 排列 的 原子 类 集合 SCD, i] SCR BE BUE min. sup. 
输出 : 所 有 频繁 项 集 。 


1: Procedure find_ candidate_frequent_itemsets 
2i For all atoms A; € S do 





3: T= Ø 

4: For all atoms A; € S. with sup(A;) >sup(A;) do 
5: R—A;UA;; 

6: tid-list CR) = tid-list(A;) (ltid-list CA; ; 

7: If | tid-list CR) | >min_sup 

8: S=SU(R};T;=T;U(R}; 

9, end if 

10: end for 

ll: while T;#¢ do find | candidate frequent itemsets; 
12; end for 





3.2.5 Bi-Eclat 算法 示例 

Bi-Eclat 算法 的 优势 可 以 通过 下 面 的 例子 清楚 地 展示 出 来 。 

考虑 图 3. 1 左 侧 所 示 图 书 销售 数据 集 。 数 据 集中 包含 八 个 不 同 的 项 目 {1A,C,D,T， 
W.F.H.K) ,存在 六 位 顾客 分 别 购买 了 这 八 位 作者 的 著作 ,该 数据 集 用 水 平 数据 格式 表 
示 。 图 3. 1 右 侧 显示 的 是 至 少 出 现在 两 次 购书 事务 中 的 图 书 项 目 , 即 支持 度 大 于 等 于 最 
小 支持 度 阔 值 的 所 有 频繁 项 目 (min_sup 一 2) 。 事 务 数据 集 显 示 为 按 支 持 度 降 序 排列 的 垂 
直 数 据 格式 。 
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项 目 事务 
C 123456 
A 13456 
w 12345 
D 2456 
T 1356 
(A, C, D, H, T} 


图 3.1 事务 数据 库 中 的 数据 表示 


按照 第 一 步 的 输出 结果 ,将 单元 素 频繁 项 集中 的 各 原子 项 目 按 支持 度 升序 排列 为 D， 
T,A,W,C。 接 着 合并 原子 集合 {D,T} 和 1{D,A}, 目 的 是 产生 候选 项 集 {D,T,A} 并 检验 
其 是 否 为 3- 频 繁 项 集 。 若 项 集 {D,T,A)} 为 频繁 的 , 则 进一步 扩展 项 集 {D,T,A} 与 {D， 
T,W}), 生 成 4- 项 集 {D,T,A,W}。 

sup({D,T,A}) =sup({D,T} N {D,A} N {T,A}) 
=sup({5.6} f] {4.5.6} 们 (1.,3,5,6)) 
=sup({5.6}) = 2 > min sup 

sup({D,T,W}) =sup({D.T} N {D.W} N {T.W}) 
=sup({5.6} N {2.4.5} N {1.3,5}) 

因为 sup({5,6) 门 {2,4,5)) 二 1 过 min_sup,; 所 以 {D,T,W) 为 非 频 繁 项 集 , 计 算 终 止 。 
作为 对 照 ,下 面 将 项 集 {D,T,A,W) 按 支持 度 降序 排序 ( 即 {W ,A,T,D)), 计 算 其 支持 度 ， 
直至 得 到 非 频 繁 项 集 为 止 (如 图 3.2 所 示 )。 

sup({W,A,T}) =sup({W,A} N {W.T} N (A. TD 
=sup({1,3,4,5) N (1,3,5) N {1,3,5,6}) 
=sup({1,3,5}) = 3 > min sup 

sup({W,A,D)) =sup({W,.A} N (W.D) N (A.D 
—sup(C(1,3,4,5) N (2.4,5) N {4,5,6}) 
=sup({4,5}) = 2 > min sup 
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sup({A,T,D}) —supC(A. T) N {A.D} M {T.D}) 
=sup({1,3,5,6) N (4,5,6) N (5.6) 
=sup({5,6}) = 2 > min sup 

sup({W,T,D}) =sup({W,T} f) {W.D} f| {T.D}) 
=sup({1,3,5) f] {2,4,5} f] {5,6}) 











图 3.2 Tidlist 对 应 的 格 上 运用 交 运 算 进 行 支持 度 计算 


这 里 ,因为 sup( {1.3.5} (2.4,5}) — 1 min. sup. BEELOW , T. D) 2g 3E it SE UAE , 算 
法 终止 。 由 此 可 见 , 如 果 采 用 支持 度 升序 排列 项 集 , 可 以 更 快 甄别 出 非 频繁 项 集 。 在 这 四 
个 步骤 的 交 操 作 中 ,至 少 能 够 节省 两 个 步骤 的 交 操 作 和 比较 操作 ,从 而 提高 挖掘 效率 。 


3.3 概率 频繁 模式 挖掘 中 的 双向 排序 策略 
3.3.1. 基于 概率 数据 的 不 确定 频繁 模式 挖 所 


不 确定 数据 模型 是 不 确定 数据 处 理 技术 首先 需要 解决 的 问题 。 研 究 人 员 认 为 ,与 
传统 的 确定 数据 库 相 比 ,在 不 确定 数据 环境 下 ,一 个 项 集 存 在 于 特定 事务 中 的 可 能 性 更 适 
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合用 概率 的 形式 来 描述 ,从 而 形成 概率 数据 库 5% 。 国 内 外 科研 人 员 对 概率 数据 库 中 的 频 
繁 模式 挖掘 工作 进行 了 深入 研究 92 。 针 对 不 同 应 用 领域 ,概率 数据 表达 的 语义 各 不 
相同 ,因此 处 理 方式 也 大 相 径 庭 : 有 时 需要 假定 所 有 事务 之 间 相互 独立 且 每 个 事务 以 确 
定 的 概率 出 现 ,有 时 需要 描述 数据 库 中 各 项 目 存 在 的 概率 分 布 (例如 Orion), 有 时 仅 以 概率 
的 形式 描述 事务 之 间 可 能 存在 的 关系 。 在 过 去 的 十 多 年 里 ,相当 数量 的 研究 就 是 以 概率 数 
据 库 作为 研究 对 象 , 基 于 可 能 性 世界 语义 实现 的 。 在 针对 概率 数据 的 不 确定 频繁 模式 挖掘 
研究 中 ,从 可 能 性 世界 语义 出 发 ,可 以 将 不 确定 数据 模型 划分 为 属性 级 和 元 组 级 两 种 DC 。 
元 组 级 的 不 确定 数据 模型 中 ,一 个 概率 数据 库 就 是 若干 记录 (元 组 ) 的 集合 ,每 条 记录 
对 应 各 自 的 存在 概率 ,同时 假设 各 记录 之 间 相 互 独立 。 在 表 3. 1 所 示 的 概率 数据 集 D" 
中 ,每 一 条 记录 T, 存在 两 种 可 能 性 世界 : 如 果 可 能 性 世界 T, 出 现 ,那么 T: 就 不 会 出 现 。 
也 就 是 说 ,在 一 条 记录 对 应 的 两 种 可 能 性 世界 中 ,其 中 只 能 有 一 种 在 实际 应 用 中 真实 存 
在 。 这 样 ,概率 数据 集 D" 中 一 个 可 能 性 世界 了 "的 存在 概率 计算 如 下 : 
Pr[D']= [[ Pero [| a PKT; (3.1) 


T,€D Tj€D 





R31 元 组 级 不 确定 数据 集 








TID 项 目 存在 概率 
Ti A 0.7 
T; B 0.4 








这 里 Pr(T;) 表 示 记 录 T; 在 可 能 性 世界 中 出 现 的 概率 ,所 有 可 能 性 世界 的 完整 集合 则 通 
过 列举 全 部 可 能 性 的 组 合 得 到 (如 表 3.2 所 示 )。 显 然 , 元 组 级 的 不 确定 数据 模型 是 一 种 最 
简单 的 模型 。 针 对 该 数据 模型 的 研究 大 多 集中 在 不 确定 频繁 模式 挖掘 技术 发 展 的 早期 阶 
ERUS, 。 例 如 , 美国 华盛顿 大 学 的 MystiQ 数据 库 系统 就 采用 了 元 组 级 的 不 确定 数据 模型 。 
表 3.2 元 组 级 不 确定 数据 集 对 应 的 可 能 性 世界 集合 


p Pr(D* ) 





Dt =Ø C—Pr(T;)) X A—Pr( Tz )) =0. 18 








Di ={A} Pr(T,) X (1—Pr(T,))=0. 42 
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续 表 
D* Pr(D* ) 
Dj =(B} | (1—Pr(T1)) X PrCT2) —0. 12 
Dj ={A,B} PrCT;) X Pr( Tz) —0. 28 











在 属性 级 不 确定 数据 模型 中 ,概率 数据 库 中 的 每 一 条 记录 包含 多 个 属性 ,并 且 对 应 同 
一 条 记录 的 每 个 属性 具有 各 自 的 存在 概率 。 每 一 记录 中 的 不 确定 属性 用 一 组 概率 分 布 
W 来 描述 ,同时 假设 各 记录 对 应 的 概率 分 布 W 是 相互 独立 的 。 在 表 3. 3 所 示 的 概率 数据 
RD 中 ,一 个 可 能 性 世界 D" 的 产生 采用 如 下 方式 : 依次 读 取 概率 数据 库 中 的 每 一 条 记 
录 , 从 该 记录 中 各 个 不 确定 属性 对 应 的 概率 分 布 中 依次 选择 每 一 个 存在 概率 值 作为 一 个 
可 能 性 世界 。 一 个 可 能 性 世界 D" 的 存在 概率 计算 如 下 : 


Pr[D'] = TPrw [Lx] (3.2) 
其 中 ,x; 表示 一 条 记录 中 某 个 不 确定 属性 对 应 的 存在 概率 。 所 有 可 能 性 世界 的 完整 集合 
则 通过 列举 全 部 可 能 的 组 合 得 到 (如 表 3.4 所 示 )。 近 年 来 ,属性 级 不 确定 数据 模型 由 于 
其 应 用 的 广泛 性 而 受到 更 多 关注 。 其 中 ,斯 坦 福 大 学 的 Trio 就 是 基于 属性 级 不 确定 数据 
模型 的 数据 库 系 统 。 本 章 也 将 基于 属性 级 不 确定 数据 模型 开展 不 确定 频繁 模式 挖掘 研究 
工作 。 


表 3.3 属性 级 不 确定 数据 集 











TID 事务 中 包含 的 项 目 
Ti A(0.7) B(0.6) 

T C(0.6) D(0.4) 

T; EG.0) 





目前 ,面向 概率 数据 库 进 行 频繁 模式 挖掘 技术 的 研究 工作 通常 称 为 不 确定 频繁 模式 
挖掘 研究 。 与 传统 的 面向 确定 数据 库 的 挖掘 工作 相 比 ,不 确定 频繁 模式 挖掘 任务 面临 着 
更 大 挑战 。 

(1) 针对 不 确定 数据 的 研究 一 般 采 用 概率 论 的 方法 , 即 项 目 / 事 务 属性 中 需 提供 概率 
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值 来 描述 某 种 关系 存在 的 可 能 性 ,而 概率 计算 具有 极 高 的 计算 成 本 。 

(2) 不 确定 数据 模型 一 般 是 以 可 能 性 世界 理论 为 基础 ,而 可 能 性 世界 理论 中 不 同 实 
体 间 关 系 的 数量 随 元 组 个 数 的 增加 呈 指 数 级 别 增 长 。 这 样 庞大 的 数据 量 , 不 仅 需要 耗费 
极 大 的 存储 空间 ,而且 需要 通过 排序 、 剪 枝 ,. 近 似 、 取 样 以 及 索引 等 技术 来 提高 挖掘 效率 。 


表 3.4 属性 级 不 确定 数据 集 对 应 的 可 能 性 世界 集合 




















D* Ti T; T; Pr(D* ) 

Di A c E 0. 4X0. 6X 1—0. 24 
D; A D E 0.4X0.4X1=0. 16 
D; B C E 0.6X0.6X1=0. 36 
Di B D E 0. 62X0. 4X 1— 0. 24 








3.3.2 基于 概率 频 度 的 双向 排序 策略 

考虑 到 项 集 采 用 不 同 排序 方式 对 生成 候选 项 集 效率 的 影响 ,根据 Apriori 先 验 性 质 和 
支持 度 性 质 , 在 采用 垂直 数据 格式 的 概率 数据 库 中 (如 表 2. 2 所 示 ) ,支持 度 计 数 和 候选 项 
集 产生 阶段 ,按照 概率 频 度 的 升序 处 理 数据 ,从 而 减少 计算 开销 ,改进 概率 频繁 项 集 挖掘 
的 效率 。 一 方面 ,概率 频 度 的 升序 排列 有 利于 减少 计算 中 的 交 操作 ; 另 一 方面 ,概率 频 度 
的 升序 排列 有 利于 尽早 区 分 出 非 频繁 模式 ,减少 候选 项 集 的 数量 。 

下 面 用 表 2. 2 中 的 数据 集 简单 说 明 。 根 据 概率 频 度 的 定义 ,存在 : 

Pr(X) = Pr{sup(X) > min_sup} 

其 中 ,项 集 XCD, 

下 面 合并 项 集 {A,B} 和 {B,E)} ,产生 候选 模式 {A.,B,E)。 

Pr({A,B,E}) =Pr({A;B} N {A,E} N {B,E}) 
—PsCUDS T Y i {Teste} 112) 

现在 ,如 果 项 集 按 字母 序 排列 ,必须 依次 计算 {A,B)}、{A,E} 的 概率 频 度 , 直 到 意识 到 
{B,E} 是 不 频繁 的 ,然后 对 项 集 {A,B,E} 剪 枝 。 可 见 ,这 里 在 判断 项 集 {A,B,E} 是 否 频 
繁 的 过 程 中 存在 着 不 必要 的 交 操 作 和 比较 计算 。 因 此 ,采用 双向 排序 策略 的 改进 算法 气 
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弃 了 Eclat 算法 中 采用 字母 序 或 字母 逆序 生成 后 续 模 式 的 做 法 ,而 是 依据 概率 频 度 的 升 
序 产生 频繁 项 集 。 这 样 ,在 产生 更 长 频繁 项 集 时 ,首先 处 理 概 率 频 度 较 低 的 候选 项 集 ,在 
操作 中 只 要 发 现 非 频 繁 计算 节点 就 中 止 处 理 过 程 ,从 而 避免 了 后 续 的 元 余 操 作 。 男 外 ,也 
可 以 采用 基于 项 集 支 持 度 计 数 的 剪 枝 策略 进一步 改善 挖掘 性 能 。 

下 面 用 例子 说 明 双 向 排序 策略 的 第 二 个 优点 。 基 于 概率 频 度 的 定义 和 递 推 公式 ,在 
迭代 过 程 中 , 当 i 递增 至 min sup 时 ,得 到 了 概率 频 度 Prs;,; (X)。 在 计算 过 程 中 ,项 集 的 存 
在 概率 值 越 高 ,对 概率 频 度 的 贡献 越 大 。 例 如 ,在 计算 PrCCA CHE. Pr{sup({A.C})=2} = 
0. 246 24 对 计算 结果 Pr({A,C)) 做 出 了 最 大 的 贡献 ,而 Pr{sup({A,C}) =3} =0. 040 32 
对 结果 Pr({A,C)) 做 出 的 贡献 却 微乎其微 。 因 此 ,有 理由 认为 将 同一 个 元 组 中 的 事务 列 
表 按 照 概率 频 度 的 降序 排列 是 更 有 意义 的 选择 ,这样 ,一 旦 Prs;,; (X) 的 值 达到 了 最 小 支 
FERE BJE min sup 就 终止 计算 过 程 ,并 取消 后 面 的 宛 余 操 作 。 这 种 方式 可 以 高 效 地 通过 
计算 得 到 概率 频 度 Prs;,;(X) 的 取 值 。 此 外 ,也 可 以 将 组 成 概率 数据 库 的 所 有 记录 按照 项 
集 支 持 度 的 升序 排列 。 这 种 做 法 会 使 计算 量 进一步 减 小 ,因而 算法 的 执行 效率 更 高 。 

总 之 ,在 事务 存储 时 ,同一 记录 中 的 事务 列表 按照 存在 概率 的 降序 排列 ;在 生成 候选 
项 集 时 ,对 概率 数据 库 中 的 项 集 按照 概率 频 度 的 升序 依次 处 理 , 因 此 , 称 之 为 在 概率 数据 
库 中 基于 垂直 数据 格式 的 双向 排序 策略 。 


3.4 实验 结果 及 分 析 


本 节 将 上 述 两 个 新 策略 嵌入 不 同 算法 ,在 实验 数据 集 上 评测 它们 的 性 能 。 首 先 ,将 基 
于 支持 度 排序 的 双向 处 理 策略 嵌入 传统 的 Eclat 算法 ( 即 Bi-Eclat 算法 ) ,评测 不 同 排序 方 
式 对 算法 性 能 的 影响 ;然后 将 基于 概率 频 度 的 双向 排序 策略 用 于 数据 以 垂直 格式 存储 的 
概率 数据 库 , 评 测 采用 双向 排序 策略 的 精确 挖掘 算法 的 性 能 。 实 验 运行 环境 为 : 安装 64 位 
Windows 7 操作 系统 的 主机 一 台 , 处 理 器 为 Intel core( TM). i5-2520M CPU 2. 5GHz, 安 装 内 
存 为 4. 00GB RAM, 


3.4.1 实验 数据 集 
本 实验 同时 选取 真实 数据 集 和 人 工 合成 数据 集 作 为 实验 数据 集 。 其 中 大 部 分 实验 运 
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行 在 频繁 模式 挖掘 领域 广泛 认可 的 FIMI® 数据 集 上 。 该 数据 集 可 以 从 FIMI (Frequent 
Itemset Mining Implementations) 提 供 的 网 站 免费 下 载 ,包含 11 个 数据 集 , 其 中 模拟 数据 
集 有 两 个 ,分 别 是 T1014D100K 和 T40110D100K。 它 们 包含 的 是 用 IBM 数据 生成 器 人 工 
合成 的 不 同性 质 的 数据 。9 个 真实 数据 集 的 情况 分 别 是 : Chess 数据 集 列 出 了 象棋 残局 
中 王 .车 对 抗 的 位 置 数据 ;Mushroom 数据 集 描 述 了 有 毒 食用 菌 的 不 同属 性 特征 ;来 自 
UCI 机 器 学 习 知 识 库 的 Connects 数据 集 收集 了 大 量 connect-4 游戏 的 状态 数据 ; 
Accidents 数据 集 包 含 了 1991-2000 年 在 比利时 公共 道路 上 发 生 的 每 一 次 有 伤亡 记录 的 
交通 事故 数据 ;网 站 点 击 流 数 据 集 Gazelle 源 自 一 个 电子 商务 网 站 ,记录 了 数 月 来 值得 关 
注 的 单 击 数据 流 ;Kosarak 数据 集 记录 的 是 一 个 匈牙利 在 线 新 闻 门 户 网 站 的 匿名 单 击 数 
据 流 ;Retail 数据 集 采 集 了 来 自 比 利 时 零售 店 的 市 场 销 售 购物 篮 数据 ;Pumsb 数据 集中 存 
放 的 是 预 处 理 后 的 人 口 普 查 数 据 , 其 中 连续 属性 已 经 离散 化 并 删除 了 无 用 属性 ; 而 
Pumsb* 数据 集 则 是 Pumsb 数据 集中 删除 了 支持 度 高 于 80% 的 项 目 之 后 的 子 集 。 频繁 
模式 挖掘 中 最 重要 的 两 次 国际 算法 比赛 (FIMI 2003 和 FIMI 2004) 就 是 以 这 些 数据 集 
为 评测 集 , 而 且 Gazelle 数据 集 也 是 著名 的 KDD 竞赛 (KDD Cup 2000) 使 用 的 评测 数 
据 集 。 

表 3.5 列 出 了 这 些 实验 数据 集 的 主要 特点 ,包括 数据 集中 的 项 目 数量 、 每 条 事务 的 平 
均 长 度 .数据 集中 事务 总 数 以 及 数据 库 的 相对 支持 度 。 

在 实际 应 用 中 ,传统 的 确定 数据 集 既 有 稠密 的 ,也 有 稀疏 的 。 而 在 不 确定 数据 环境 
下 ,待考 虑 的 概率 数据 库 却 以 稀 玻 数 据 库 居多 。 也 就 是 说 ,在 概率 数据 库 中 ,常常 是 每 个 
事务 中 只 有 少量 项 目 以 不 同 的 非 零 概率 值 存 在 ,而 大 部 分 项 目 并 没有 出 现在 给 定 事务 中 。 

稠密 数据 库 和 稀疏 数据 库 C2] ”一 个 稠密 数据 库 中 的 频繁 项 目 普遍 拥有 较 高 的 相对 
支持 度 ; 而 在 一 个 稀 茧 数据 库 中 ,每 一 个 频繁 项 目的 相对 支持 度 都 比较 低 。 这 里 的 相对 支 
持 度 是 绝对 支持 度 与 数据 库 中 事务 总 数 的 比值 。 

一 般 来 说 ,如 果 事 务 数据 库 中 频繁 项 目的 相对 支持 度 不 小 于 1026 ,那么 该 数据 库 被 看 作 
是 稠密 的 ;相反 , 若 一 个 数据 库 中 频繁 项 目的 相对 支持 度 远 远 小 于 «TE A 








(D http://fimi. ua. ac. be/data/. 
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的 。 如 果 数 据 库 中 频繁 项 目的 相对 支持 度 介 于 10% 与 1% 之 间 , 需 要 结合 实际 数据 库 的 尺 
二 和 数据 库 中 项 目的 特点 综合 判定 。 如 表 3.5 所 示 ,评测 实验 中 采用 的 数据 集 既 有 稠密 数 
据 集 ,如 Mushroom,Chess,Connects,Pumsb 及 Pumsb* ,又 有 稀 巩 数据 集 ,如 Retail, Kosarak , 


Gazelle 以 及 T1014D100K, 还 有 其 他 数据 集 ,如 Accidents 和 T40I10D100K。 


表 3.5 本 章 采用 的 事务 数据 集 



































数据 集 名 称 项 目 数 事务 长 度 事务 总 数 相对 支持 度 
Mushroom 119 23 8124 19.33% 
Chess 75 37 3196 48. 68% 
Connects 129 43 67 557 33% 
Accidents 468 33.8 340 183 7.296 
Pumsb* 7117 50 49 046 高 
Pumsb 7117 74 49 046 较 高 
Retail 16 469 10.3 88 126 0.06% 
T40110D100K 943 40. 61 100 000 4.2% 
T1014D100K 871 11.1 100 000 1.1596 
Kosarak 41 270 8.1 990 002 0.02% 
Gazelle 498 2.5 59 602 0.5% 














25 MEL BE E BSA E LE AS at RC PI BE F a hos a AE RE al) Je EB z) A ER Y 
JE P. PEE Sc pop AE TOUT] HEFE AR OS FE 88 PEU EGT TE fe UI do E A Hb eB it HC 
Ji 4E ,并 设置 不 同 的 最 小 支持 度 阔 值 min. sup ARI] SEE BESE IL {EL min_prob。 一 个 很 普 
遍 的 现象 是 ,针对 不 同 的 测试 数据 集 , 参 加 评测 的 算法 有 时 会 显示 出 相似 的 性 能 特征 ,这 
可 能 是 因为 不 同 数据 集 有 时 展现 的 数据 特性 较为 相近 。 在 下 面 的 小 节 中 ,只 选取 典型 的 


3.4.2 实验 结果 分 析 


本 章 的 实验 环境 主要 是 基于 著名 的 开源 数据 挖掘 软件 库 SPM FU? (http://www. 
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philippe-fournier-viger. com/spmf/) ,所 有 的 对 比 算法 也 都 来 自 SPMF 网 站 提供 的 数据 
包 。 对 算法 的 性 能 测试 主要 从 最 小 支持 度 冰 值 . 算 法 的 可 扩展 性 以 及 数据 的 稀 玻 程度 对 
算法 性 能 的 影响 等 方面 进行 ,在 相同 数据 集 下 将 采用 新 策略 的 改进 算法 与 现 有 算法 在 运 
行 时 间 内存 占用 等 方面 进行 比较 。 

借鉴 目前 频繁 模式 挖掘 领域 的 理论 研究 成 果 和 实验 评测 结果 ,这 里 设计 了 如 下 两 组 
实验 展示 新 策略 的 性 能 。 

1. 基于 双向 处 理 策略 的 Bi-Eclat 算法 在 传统 确定 数据 集 上 的 性 能 

第 一 组 实验 选取 公开 数据 集 上 的 确定 数据 作为 实验 数据 ,评测 支持 度 排序 策略 对 算 
法 性 能 的 影响 。 具 体 实验 方法 为 : 基于 传统 的 Eclat 框架 ,将 三 种 使 用 不 同 支持 度 排 序 策 
略 的 算法 在 相同 实验 环境 下 进行 性 能 对 比 。 这 三 种 算法 分 别 是 使 用 双向 处 理 策 略 的 Bi- 
Eclat 算法 、 使 用 字母 表 顺 序 排列 的 传统 Eclat 算法 和 使 用 双向 逆序 处 理 策略 的 Bi-Eclat 
逆序 算法 。 实 验 选 取 不 同 的 最 小 支持 度 阔 值 min. sup 实施 频繁 项 集 挖掘 任务 并 依次 记录 
实验 结果 ,包括 频繁 项 集 的 支持 度 .算法 的 运行 时 间 及 内 存 占用 。 所 有 算法 在 Windows 7 
操作 系统 上 使 用 Java 编程 语言 实现 。 

实验 目标 是 比较 上 述 三 种 算法 的 运行 时 间 和 内 存 需 求 。 在 保持 内 存 占用 基本 不 变 的 
条 件 下 ,图 3.3 一 图 3.6 显示 了 不 同 支持 度 排序 方式 对 算法 运行 时 间 开 销 的 影响 。 实 验 
结果 表明 : 支持 度 降序 存储 方式 能 够 增加 数据 存储 的 紧 致 性 ,有 利于 提高 存储 效率 ;在 频 
繁 项 集 产 生 阶段 ,项 集 按 支持 度 升 序 排 列 有 助 于 及 早 甄别 出 非 频繁 项 集 ,减少 不 必要 的 宛 
余 操 作 , 有 利于 提高 算法 的 执行 效率 。 其 原因 是 : 在 支持 度 计数 阶段 ,Bi-Eclat 算法 中 项 
集 采 用 支持 度 升序 排列 ,支持 度 最 低 的 项 目 出 现在 每 一 个 频繁 项 集 的 首位 ,这 意味 着 它们 
首先 参与 交 运算 并 进行 支持 度 比 对 。 根 据 支持 度 性 质 , 一 旦 发 现 其 支持 度 低 于 给 定 的 最 
小 支持 度 阀 值 ,立即 终止 ,从 而 保证 了 尽早 结束 递归 算法 。 相 反 ,Bi-Eclat 逆序 算法 中 项 
集 采 用 支持 度 降 序 排列 ,位 于 频繁 项 集 开 头 的 每 一 个 项 目 具 有 最 高 的 支持 度 ,在 进行 支持 
度 比 对 时 极 有 可 能 大 于 最 小 支持 度 阔 值 ,从 而 继续 下 一 步 交 操作 ,直至 最 后 找到 支持 度 较 
小 的 项 目 才 退 出 递归 算法 。 这 时 虽然 发 现 前 面 的 比 对 操作 只 是 “无 用 功 ” 而 陡然 增加 了 元 
余 操作 ,但 也 是 无 计 可 施 ,从 而 导致 算法 性 能 较 差 。 

实验 结果 分 析 中 还 得 到 以 下 可 能 结论 。 


运行 时 间 /s 





运行 时 间 /s 
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图 3.3 在 稠密 数据 集 Connects 上 的 性 能 比较 
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图 3.4 在 稠密 数据 集 Mushroom 上 的 性 能 比较 
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图 3.5 在 中 等 密度 数据 集 Accidents 上 的 性 能 比较 
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图 3.6 在 较 稀疏 数据 集 T4010D100K 上 的 性 能 比较 
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首先 ,给 定 相 同 的 min sup 浆 值 ,尽管 这 三 种 算法 耗费 的 运行 时 间 存 在 差别 ,但 挖掘 
出 的 频繁 项 集 数量 基本 相同 ( 见 图 3. 7)。 算 法 运行 结果 的 一 致 性 验证 了 算法 的 正确 性 ， 
为 下 一 步 针 对 三 种 算法 的 性 能 比较 黄 定 了 基础 。 
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图 3.7 XX] Ab HE ns fE Fa it BCE HE T1014D100K 上 的 性 能 : 频繁 项 集 数量 


其 次 ,从 实验 结果 明显 看 到 ,算法 的 时 间 开 销 随 着 最 小 支持 度 阔 值 min. sup 的 增加 而 
减少 ,这 是 因为 给 定 的 min. sup WERAK, 产生 的 候选 项 集 数目 越 少 , 扫描 数据 库 的 次 数 
也 减少 ( 见 图 3. 3 一 图 3.6) 。 当 min. sup 闽 值 降低 时 ,这 三 种 算法 挖掘 出 的 频繁 项 集 数 量 
也 迅速 增加 ( 见 图 3. 7) ,运行 时 间 也 都 显著 提高 ( 见 图 3. 8) 。 
实验 结果 表明 , 随 着 min sup 阔 值 的 提高 ,这 三 种 算法 的 内 存 占用 都 平滑 降低 ,尽管 
降低 的 幅度 很 小 ( 见 图 3.9)。 实 际 上 ,数据 库 按 支持 度 升序 或 降序 存储 并 没有 增加 额外 
的 内 存 开销 。 当 然 , 在 内 存 需 求 方面 ,双向 处 理 策 略 也 没有 表现 出 显著 的 性 能 优势 。 在 内 
存 占用 相似 的 前 提 下 ,基于 相同 的 Eclat 框架 .采用 不 同 支持 度 排序 策略 的 频繁 项 集 控 掘 
算法 在 不 同 数据 集 上 显示 出 过 然 不 同 的 挖掘 性 能 。 在 中 等 稠密 度 的 Accidents 数据 集 上 ， 
Bi-Eclat 算法 和 Bi-Eclat 逆序 算法 在 运行 时 间 指 标 上 都 取得 了 优势 ,虽然 与 不 确定 数据 集 
上 的 实验 结果 相 比 ,这 一 优势 并 不 十 分 明显 。 与 先前 的 预测 一 致 ,传统 Eclat 算法 的 性 能 
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图 3.8 XX] Ab FE NE EF BH AE T1014 D100K 上 的 性 能 比较 : 运行 时 间 
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图 3.9 XUE Ach E AE SE Pie HE E T1014D100K 上 的 性 能 比较 : 内 存 占用 


明显 落后 于 两 种 按照 支持 度 排 序 的 算法 。 究 其 原因 ,应 该 是 字母 序 排列 的 Eclat 算法 在 
处 理 过 程 中 受累 于 宛 长 的 交 运 算 和 繁复 的 计算 而 导致 了 性 能 损失 。 
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再 次 ， 当 给 定 的 最 小 支持 度 闪 值 min_sup 较 大 时 ,算法 挖掘 出 的 大 多 是 短 频繁 项 集 ， 
实验 中 三 种 算法 普遍 表现 出 较 高 的 性 能 ( 见 图 3.7)。 然 而 , 随 着 最 小 支持 度 阔 值 的 降低 ， 
长 频繁 项 集 的 数量 也 增 大 ,Bi-Eclat 算法 表现 出 良好 的 性 能 。 由 此 可 以 得 出 结论 : Bi- 
Eclat 算法 在 挖掘 长 频繁 项 集 方面 具有 一 定 的 性 能 优势 ,可 能 适合 在 大 规模 长 模式 数据 集 
上 实施 频繁 项 集 挖掘 任务 。 

最 后 ,在 稀 玻 数据 集 T1014D100K 和 Kosarak 中 ,Bi-Eclat 算法 在 运行 时 间 上 显示 出 
较 大 的 性 能 差异 。 在 某 些 给 定 的 min sup PIfft E. Bi-Eclat 算法 在 运行 时 间 指 标 上 获得 
了 非常 好 的 实验 效果 。 而 在 另外 一 两 个 点 所 示 的 min. sup 阔 值 下 ,Bi-Eclat 算法 却 失去 
了 与 Bi-Eclat 逆序 算法 竞争 的 性 能 优势 ( 见 图 3. 8) 。 这 说 明 Bi-Eclat 算法 并 不 是 在 所 有 
稀 玻 数据 集 上 都 有 稳定 的 性 能 ,也 许 该 方法 只 适用 于 某 些 特定 的 稀疏 数据 库 。 这 也 是 需 
要 进一步 研究 的 问题 。 

总 的 来 说 ,与 传统 Eclat 算法 相 比 ,基于 支持 度 排序 策略 的 Eclat 算法 具有 一 定 的 竞 
争 优势 ,这 表明 不 同 的 排序 策略 对 改善 算法 的 性 能 都 有 益处 。 然 而 ,所 有 的 实验 结果 都 没 
有 显示 出 预期 的 显著 优势 。 究 其 原因 ,可 能 是 源 于 确定 数据 环境 下 ,数据 本 身 的 特性 就 是 
所 有 项 目的 存在 概率 都 等 于 1。 这 样 ,按照 项 目 存在 概率 降序 排列 各 项 集 的 优势 不 复 存 
在 ,更 不 要 说 忽略 微小 存在 概率 的 项 集 以 减少 计算 过 程 的 复杂 度 这 一 技巧 了 。 也 就 是 说 ， 
Bi-Eclat 算法 中 的 双向 处 理 策略 在 确定 数据 环境 下 根本 没有 机 会 展示 其 应 有 的 性 能 
优势 。 

2. 基于 双向 排序 策略 的 精确 挖掘 算法 在 概率 数据 集 上 的 性 能 

正如 3.4.1 节 所 述 ,在 移动 网 络 环境 下 ,概率 数据 库 常常 表现 出 稀 玻 的 特性 ,例如 , 广 
为 接受 的 Kosarak 和 Gazelle 数据 集 。 因 此 ,本 节 主 要 研究 基于 支持 度 双向 排序 策略 的 精 
确 挖掘 算法 在 概率 数据 集 Kosarak 和 Gazelle 上 的 性 能 。 所 有 算法 用 Microsoft Visual 
C++ 实现 。 

当前 的 研究 中 ,人 们 更 倾向 于 用 高 斯 分 布 描述 概率 数据 的 不 确定 性 。 因 此 ,在 这 组 实 
验 选 用 的 数据 集中 ,用 高 斯 分 布 发 生 器 生成 概率 数据 库 中 每 个 项 目的 存在 概率 。Kosarak 
数据 集 设置 为 低 均 值 (0. 5) 高 方差 (0. 5) 的 概率 数据 集 , 而 Gazelle 数据 集 设置 为 高 均值 
(0. 95) 低 方差 (0. 05) 的 概率 数据 集 。 实 验 步骤 如 下 : 分 别 运行 带 有 剪 枝 策略 的 动态 规划 
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算法 UApriori(DP with Pruning™®™ ) 采用 超 结 构 的 UH-mine 算法 59 和 采用 双向 排序 策 
略 的 概率 频繁 项 集 精 确 控 掘 算法 。 其 中 ,UApriori 算法 是 当前 最 常用 的 概率 频繁 项 集 精 
确 挖掘 算法 ,而 UH-mine 算法 是 当前 公认 的 效率 最 高 的 概率 频繁 项 集 精 确 挖掘 算法 。 

总 的 来 说 ,Kosarak 和 Gazelle 数据 集 上 的 实验 显示 了 相似 的 结论 ,并 说 明 改 进 算 法 
比 以 往 方法 具有 更 好 的 性 能 。 主 要 结论 如 下 。 

(1) 基于 双向 排序 策略 的 精确 挖掘 算法 在 稀 朴 概率 数据 集 Kosarak 上 的 性 能 比较 
LA 3. 10 一 图 3. 12) 清 晰 地 展示 了 双向 排序 策略 在 Eclat 框架 下 的 性 能 优势 : 在 内 存 占 
用 略 有 收缩 的 优势 下 ,算法 的 运行 时 间 稍 有 下 降 , 虽 然 性 能 提升 没有 十 分 显著 ,但 性 能 优 
势能 够 同时 体现 在 时 间 和 空间 两 个 方面 也 是 非常 难得 的 。 而 且 , 性 能 提升 表现 得 十 分 
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图 3.10 双向 排序 策略 在 Kosarak 数据 集 上 的 性 能 比较 : 内 存 占用 


(2) 当 min sup 从 0. 8% 28 (E 8 0.3% ,这 三 种 算法 的 内 存 占用 都 相当 稳定 。 然 而 ， 
当 min sup 降 至 0.2% ,这 三 种 算法 的 内 存 占用 都 急剧 上 升 , 这 可 能 是 因为 在 min_sup 一 
0.2% 时 ,产生 的 频繁 项 集 数量 急剧 增多 的 缘故 ( 见 图 3. 10) 。 幸 运 的 是 ,基于 双向 排序 策略 
的 精确 挖掘 算法 比 另 外 两 种 算法 展现 出 更 好 的 稳定 性 ,这 极 有 可 能 是 得 益 于 双向 排序 策略 。 
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图 3.11 双向 排序 策略 在 Kosarak 数据 集 上 的 性 能 比较 : 运行 时 间 
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.12 双向 排序 策略 在 Kosarak 数据 集 上 的 性 能 比较 : 频繁 项 集 数量 
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在 内 存 占用 相同 的 条 件 下 , 当 min_sup 降低 时 ,对 于 双向 排序 的 精确 挖掘 算 法 ,其 运 
行 时 间 增 加 ,曲线 更 为 光滑 ,这 种 增长 趋势 显然 比 采 用 动态 规划 的 UApriori 算法 表现 得 
更 为 稳定 ( 见 图 3. 11) 。 这 一 优势 可 能 归功 于 双向 排序 策略 中 更 少 的 交 操 作 和 更 简捷 的 
计算 过 程 。 


3.5 本 章 小 结 


目前 ,针对 概率 频繁 模式 精确 挖掘 方法 存在 如 下 问题 : 挖掘 出 的 频繁 模式 存在 信息 
丢失 ;产生 的 候选 模式 呈 指 数 级 别 增长 :挖掘 过 程 存在 宛 余 操作 。 基 于 垂直 数据 格式 的 控 
掘 算法 被 证 明 适 合用 于 概率 数据 库 进行 不 确定 频繁 模式 挖掘 ,目前 在 垂直 数据 格式 的 概 
率 数 据 库 上 实施 不 确定 频繁 模式 挖掘 的 算法 大 都 基于 Eclat 算法 及 其 变种 。 

本 章 首先 研究 了 基于 垂直 数据 格式 的 Eclat 算法 并 指出 该 算法 存在 的 问题 ,进而 提 
出 了 基于 支持 度 排序 的 双向 处 理 策略 ;接着 针对 概率 数据 库 的 稀 玻 特性 对 双向 处 理 策略 
进一步 改进 和 优化 ,提出 了 基于 概率 频 度 的 双向 排序 策略 ,适用 于 概率 频繁 模式 精确 挖掘 
算法 。 这 是 垂直 挖掘 框架 用 于 概率 数据 库 中 解决 频繁 项 集 挖 掘 问题 的 有 益 尝 试 。 最 后 ， 
详细 介绍 了 实验 数据 集 、 实 验方 法 和 实验 结果 。 在 基准 数据 集 和 真实 数据 集 上 的 对 比 实 
验 表明 ,基于 支持 度 排序 的 双向 处 理 策略 用 于 传统 的 Eclat 算法 可 以 在 一 定 程度 上 提高 
算法 的 执行 效率 ;采用 双向 排序 策略 的 精确 挖掘 算法 能 够 依据 支持 度 的 概率 分 布 ,准确 挖 
掘 出 所 有 概率 频繁 项 集 。 这 为 有 效 解决 精确 挖掘 概率 频繁 项 集 问题 提供 了 新 的 思路 。 
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针对 概率 数据 库 的 特点 以 及 概率 频繁 项 集 挖掘 算法 中 存在 的 问题 ,本 章 提 出 两 种 采 
用 支持 度 双 向 排序 策略 的 概率 频繁 项 集 挖掘 算法 。 基 于 概率 频 度 的 定义 ,这 两 种 算法 可 
以 用 于 概率 数据 库 ,分别 适合 完成 概率 频繁 项 集 的 精确 挖掘 和 近似 挖掘 任务 。 本 章 结构 
安排 如 下 : 4.1 节 介 绍 概率 频繁 项 集 挖掘 相关 概念 和 重要 结论 ;4. 2 节 重点 介绍 改进 后 的 
算法 , 即 基于 概率 频 度 的 概率 频繁 项 集 精确 挖掘 算法 一 一 UBEclat 算法 ;4. 3 节 重 点 介绍 
第 二 个 改进 算法 , 即 基 于 概率 频 度 ,结合 大 数 定律 的 概率 频繁 项 集 近 似 挖掘 算法 一 一 
NDUEclat 算法 ;4. 4 节 介 绍 在 基准 数据 集 和 真实 数据 集 上 的 实验 评测 ,本章 提 出 的 两 个 
新 算法 在 主要 性 能 指标 上 获得 了 良好 的 实验 结果 ;4. 5 节 为 本 章 小 结 。 


4.1 概率 频繁 项 集 挖掘 相关 概念 





在 概率 数据 库 中 ,基于 可 能 性 世界 理论 出 现 了 两 种 不 同 的 频繁 项 集 定义 : 基于 期 望 
支持 度 的 频繁 项 集 和 基于 概率 频 度 的 频繁 项 集 。 前 人 的 研究 大 多 是 根据 其 中 一 种 定义 开 
展 研究 工作 。 然 而 ,Tong 等 证 明 支 持 度 的 这 两 种 定义 之 间 存 在 着 密切 联系 。 

既然 自然 界 中 事务 或 项 目的 存在 是 以 概率 的 形式 来 描述 的 ,显然 采用 类 似 于 确定 情 
况 下 的 支持 度 计数 方式 描述 项 目 出 现 的 频繁 程度 是 不 科学 的 。Chui 等 在 UApriori 算 
法 5 四 中 首次 提出 了 用 项 目的 期 望 支持 度 描述 不 确定 数据 环境 下 项 目 出 现 的 频繁 程度 。 

项 集 的 期 望 支 持 度 ”给 定 含 有 N 个 事务 的 概率 数据 库 PDB, 项 集 X 的 期 望 支 持 度 
定义 为 数据 库 内 所 有 事务 中 项 集 X 的 存在 概率 之 和 。 


N 
exsup(X) = >) p;(X) (4.1) 
i=l 


基于 期 望 支持 度 的 频繁 项 集 RE-TAAN 个 事务 的 概率 数据 库 PDB, 当 且 仅 当 
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exsup(X)>N X min sup? 成 立时 ,项 集 X 为 基于 期 望 支持 度 的 频繁 项 集 。 

例 4.1 如 表 4.1 所 示 , 若 min_sup 王 0.4, 使 用 式 (4.1), 可 以 得 到 项 集 X 的 期 望 支 
TEE exsup(A.C) —0. 6 X0.4+0.6X0.8+0.5X0.7=1.07 <2.0。 也 就 是 说 ,exsup({A， 
C))<5Xmin_sup, 项 集 X 不 是 基于 期 望 支持 度 的 频繁 项 集 。 

概率 频 度 给 定 一 个 含有 N 个 事务 的 概率 数据 库 PDB, 项 集 X 的 概率 频 度 定 
义 为 

Pr(X) = Prisup(X) > N X min sup? (4, 2) 

概率 频繁 项 集 ”给 定 一 个 含有 N 个 事务 的 概率 数据 库 PDB, 当 且 仅 当 概率 频 度 
Pr(CX) 不 小 于 最 小 频繁 概率 阔 值 min. prob 时 ,项 集 X 被 称 为 概率 频繁 项 集 。 这 里 ,min_ 
sup 和 min, prob 的 取 值 均 由 用 户 指定 。 

例 4.2 如 表 4.1 所 示 , 设 min. prob—0. 25. min. sup—0. 4. fi HX C4. 20 ,得 到 项 集 
{A,C} 的 概率 频 度 。 

Pr({A,C}) =Pr{sup({A,C}) >5 X 0.4} 
=Pr{sup({A,C}) = 2} + Pr{sup({A,C}) = 3} + 
Pr{sup({A,C}) = 4} + Pr{sup({A,C}) = 5} 
其 中 
Pr{sup({A,C}) = 4} = Pr{sup({A,C}) = 5} = 0 
Pr{sup({A,C}) = 3} = 0.24 X 0. 48 X 0. 35 = 0.040 32 
Pr{sup({A,C}) = 2} =0. 24 X 0.48 X (1 — 0. 35) + 0. 24 X (1 — 0. 48) X 0. 35 + 
(1—0. 24) X 0. 48 X 0. 35 = 0. 24624 
因此 
Pr{A.C} = 0. 246 24 十 0.040 32 十 0 十 0 = 0.286 56 > 0.25 
所 以 ,项 集 (A,C} 是 一 个 基于 概率 频 度 定义 的 不 确定 频繁 项 集 ,简称 概率 频繁 项 集 。 





D min sup: 在 概率 数据 库 中 ,min_sup 一 般 是 指 相对 支持 度 靖 值 , 即 绝对 支持 度 阔 值 与 事务 数 的 比值 。 所 以 ， 
本 章 中 的 min. sup 表示 相对 支持 度 国 值 。 
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表 4.1 概率 数据 库 中 垂直 数据 格式 

















TID 事务 列表 

A T, (0. 6) T2 (0.7) T; (0. 6) T; (0.5) 
B T, (0.5) T; (0. 2) 

€ Tı (0. 4) Ts (0:8) TOD T; (0.7) 
D T, (0.5) T: (0.8) Ts (0. 4) T;(0. 3) 
E Ta (0. 25) T, (0. 2) T; (0.3) 





针对 概率 数据 的 频繁 项 集 挖掘 方法 ,大 致 可 以 分 成 两 类 : 基于 期 望 支持 度 的 挖掘 算 
法 和 基于 概率 频 度 的 挖掘 算法 。 在 早期 针对 概率 数据 的 研究 中 ,大 多 数 科研 工作 者 聚焦 
在 基于 期 望 支持 度 的 频繁 项 集 挖掘 研究 ,并 取得 了 不 错 的 成 绩 。 近 年 来 , Bernecker 4081 
发 现 基 于 期 望 支 持 度 定义 的 频繁 项 集 存 在 明显 缺陷 : 它 忽略 了 不 确定 数据 的 内 部 结构 ， 
未 考虑 所 有 不 确定 实体 之 间 的 相互 作用 。 这 样 , 仅 仅 依据 期 望 支持 度 来 确定 频繁 项 集 可 
能 会 导致 信息 丢失 。 更 重要 的 是 ,不 确定 性 是 概率 数据 的 固有 特性 ,这 在 评估 频繁 项 集 时 
应 起 到 重要 作用 。 因 此 ,在 最 新 研究 中 ,基于 概率 频 度 的 频繁 项 集 挖掘 方 法 作为 一 个 新 的 
研究 方向 引起 了 广大 科研 工作 者 的 关注 。 

然而 ,计算 项 集 的 概率 频 度 却 是 一 项 复杂 耗 时 的 工程 。 值 得 庆幸 的 是 ,经 过 理论 分 析 
和 实验 室 的 研究 ,Tong 等 " 呈 发 现 期 望 支持 度 与 概率 频 度 这 两 个 定义 都 可 以 用 于 评估 项 
集 在 概率 数据 中 出 现 的 频繁 程度 ,二 者 具有 密切 的 联系 。 而 且 ,在 不 确定 数据 量 巨 大 的 概 
率 数据 库 中 ,只 要 分 别 计算 出 项 集 的 期 望 支持 度 和 支持 度 方差 ,就 可 以 改进 基于 期 望 支持 
度 的 频繁 项 集 挖掘 算法 ,用 于 有 效 地 挖掘 概率 频繁 项 集 。 因 此 ,科研 工作 者 提出 ,可 以 借 
鉴 合适 的 基于 期 望 支持 度 的 频繁 项 集 挖掘 算法 高 效 挖掘 出 概率 频繁 项 集 。 本 章 的 研究 内 
容 就 是 基于 概率 频 度 的 定义 ,提出 两 种 适用 于 概率 数据 库 中 挖掘 概率 频繁 项 集 的 算法 。 


4.2 ”概率 频繁 项 集 精确 挖掘 算法 


同 基于 期 望 支持 度 的 概念 相 比 ,概率 频 度 更 注重 以 整体 的 观念 对 待 项 目的 支持 度 集 
。 或 者 说 ,概率 频繁 项 集 更 关注 一 个 项 集 支持 度 的 概率 分 布 , 这 样 有 利于 在 随机 可 能 性 


m> 
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世界 里 捕获 到 不 确定 数据 间 的 微妙 关系 。 


4.2.1 相关 工作 

基于 概率 频 度 的 定义 ,目前 存在 的 不 确定 频繁 模式 挖掘 技术 主要 有 概率 频繁 项 集 挖 
据 、 频 繁 闭 项 集 挖掘 01 、Top-k 频繁 模式 挖掘 359、 序列 模式 挖掘 "1! 中等。 概率 频繁 
项 集 挖掘 算法 可 以 分 为 两 类 : 精确 挖掘 算法 和 近似 挖掘 算法 。 其 中 ,精确 挖掘 算法 主要 
基于 经 典 的 Apriori 框架 。 

依据 概率 频繁 项 集 的 定义 ,概率 数据 库 中 一 个 项 集 的 支持 度 可 以 看 作 一 个 服从 二 项 
分 布 的 随机 变量 。 因 此 ,2009 年 ,Bernecker 等 5 首次 提出 基于 Apriori 框架 的 概率 频繁 
项 集 挖掘 算法 , 即 自 底 向 上 迭代 产生 候选 项 集 ,通过 剪 枝 得 到 概率 频繁 项 集 。 该 算法 首先 
计算 每 一 个 项 目的 概率 频 度 ,检测 出 所 有 的 概率 频繁 项 目 集合 。 针 对 所 有 的 1- 频 繁 项 集 ， 
计算 相应 的 概率 质量 函数 (PMF), 用 于 生成 2- 候 选项 集 , 通 过 支持 度 检验 筛选 出 其 中 的 
2- 频 繁 项 集 并 分 别 计算 它们 的 概率 质量 函数 ,用 于 生成 3- 候 选项 集 …… 直至 不 再 产生 新 
的 频繁 项 集 为 止 。 总 的 来 说 ,该 算法 继承 了 Apriori 框架 的 思路 ,每 次 由 大 频繁 项 集 产 生 
(kk 十 1)- 候 选项 集 ,利用 A priori 先 验 性 质 实施 剪 枝 操 作 ,最 后 找到 所 有 的 概率 频繁 项 集 并 
返回 各 个 支持 度 的 概率 质量 函数 。 

显然 ,在 挖掘 概率 频繁 项 集 过 程 中 ,如 何 准 确 高 效 地 计算 每 个 项 集 支持 度 的 概率 质量 
函数 是 决定 算法 性 能 优 劣 的 关键 。Sun 等 9 叫 提 出 两 种 方法 简单 快捷 地 计算 支持 度 的 概 
率 质量 函数 , 即 DP 算法 和 DC 算法 。DP 算法 是 采用 动态 规划 的 方法 。 项 集 X 的 概率 质 
量 函 数 fx 初始 化 为 {1,0,… ,0}) ;然后 依次 读 取 每 一 条 新 事务 ,这 样 概 率 质 量 函 数 fx 的 
值 也 随 着 信息 的 增加 得 以 更 新 并 进入 缓存 ;不 断 重复 这 一 迭代 过 程 直 至 所 有 事务 所 在 的 
记录 全 部 处 理 完毕 。 该 动 规 算法 的 时 间 复 杂 度 为 O(n?) ,空间 复杂 度 为 O) 

Sun 等 提出 的 第 二 种 方法 采用 分 而 治之 的 策略 ,简称 DC 算法 。 给 定 项 集 X, 如 果 概 
率 数 据 库 中 包含 不 止 一 个 事务 的 话 ,就 将 该 概率 数据 库 水 平 划分 成 两 个 独立 的 子 数据 库 
D; 和 D; ,然后 分 别 在 子 数据 库 中 执行 迭代 过 程 , 即 基于 子 数据 库 分 别 计算 项 集 X 的 概率 
质量 函数 ,最 后 根据 两 个 子 数据 库 中 的 概率 质量 函数 最 终 产生 项 集 X 支持 度 的 概率 质量 
函数 。 该 算法 的 理论 依据 是 : 既然 项 集 X 在 子 数据 库 D, 和 D; 中 的 支持 度 SUPp, (X) 和 





第 4 章 ”Eclat 框架 下 的 概率 频繁 项 集 挖 据 算法 / 81 


SUPp,(X) 是 相互 独立 的 随机 变量 ,因此 ,SUP(X) 二 SUPp, (X) 十 SUPDp, (X). $ fifi 
分 别 是 SUPp, CX) fll SUP, (X) 的 概率 质量 函数 ,那么 


k 
fr) = MfG x Re) (4,3) 
i=0 


实际 上 ,fx 是 fx 和 fx 的 卷 积 。 这 样 ,使 用 快速 傅 里 叶 变换 (FFT) 算 法 , 式 (4. 30 I] 
时 间 复 杂 度 可 降 为 O(nlogzn)。 因 此 ,DC 算法 的 时 间 复 杂 度 为 c(Cz) = 2c (n/2) + 
Olnlogzn), 即 OGrlog? 2) ;空间 复杂 度 为 O(n)。 这 表明 ,DC 算法 在 大 数据 集 上 的 运行 效 
率 明 显 优 于 DP 算法 。 

常用 的 这 些 精确 挖掘 算法 都 是 基于 水 平 数据 格式 的 。 在 概率 频 度 的 定义 下 ,目前 还 
没有 真正 的 基于 垂直 数据 格式 的 频繁 项 集 精确 挖掘 算法 。 在 前 人 工作 的 基础 上 ,本 书 作 
者 设计 了 一 种 新 的 基于 Eclat 框架 的 不 确定 频繁 项 集 挖 据 算法 (UBEclat 算法 ), 用 于 概率 
数据 库 中 发 现 概率 频繁 项 集 。 


4.2.2 Tidlist 数据 结构 

先前 的 频繁 模式 挖掘 算 法 大 多 基于 水 平 数据 格式 。 然 而 ,在 不 确定 数据 环境 下 ,垂直 
数据 格式 也 是 描述 概率 数据 库 的 常用 形式 ,如 移动 用 户 潜在 的 购买 行为 。 实 际 上 ， 
UBEclat 算法 采用 的 Tidlist 数据 结构 是 传统 数据 库 中 垂直 数据 格式 的 扩展 版 本 ,只 是 对 
每 个 属性 值 增加 了 一 个 概率 参数 ,用 来 表示 一 个 项 目 在 特定 事务 中 存在 的 可 能 性 。 

在 概率 数据 库 PDB 中 ,垂直 数据 格式 表示 为 二 元 组 (z,tidlist(z)》, 用 于 描述 构成 数 
据 库 的 项 目 集合 ,其 中 是 项 目标 识 符 ,tidlistCz) 是 支持 项 目 x 的 事务 列表 ,其 中 每 一 条 
事务 包含 一 个 事务 标识 符 t; 和 一 个 存在 概率 pai) (O— p GO D s 

tidlist(z) = { (tı spa (三 7)) + (tes pe (te) ) GG Pe GOD s tm pe (tm) ) } 

这 里 ,p; (zi) 意 味 着 项 目 x 与 事务 1; 之 间 具 有 潜在 的 不 确定 关系 。 


4.2.3 概率 频 度 计算 模块 
在 实际 的 不 确定 应 用 中 , 若 要 确切 地 说 出 一 个 项 目 是 否 属于 特定 的 事务 显然 十 分 困 
难 。 一 般 情 况 下 ,人 们 通常 使 用 可 能 性 世界 语义 来 描述 原始 数据 的 不 确定 性 。 在 可 能 性 
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世界 语义 中 ,一 个 概率 数据 库 会 看 作 可 能 性 世界 的 集合 ,每 一 个 可 能 性 世界 都 会 对 给 定 项 目 
的 概率 支持 度 取 值 做 出 一 定 贡献 。 这 样 ,概率 频繁 项 集 的 支持 度 可 以 表示 为 概率 质量 函数 。 

在 基于 垂直 数据 格式 的 改进 算法 中 ,可 以 采用 自 底 向 上 的 方式 计算 每 个 项 集 的 概率 
频 度 Pr(X)。 这 里 使 用 二 维 数组 Px[i, 门 描述 项 集 XX 的 情况 ,二 元 组 [i, 门 标识 每 个 单元 
的 取 值 ,表示 概率 数据 库 PDB 中 项 集 X 第 ; 次 出 现在 前 j 个 事务 中 的 概率 。 类 似 地 ， 
Pr»; ORR j 个 事务 中 至 少 有 i 个 事务 包含 项 集 X 的 概率 。 

在 改进 算法 中 ,用 如 下 递归 公式 计算 每 个 项 集 的 概率 频 度 ,并 基于 动态 规划 的 方法 构 
建 支持 度 的 概率 质量 函数 。 

Prai; (X) = Prom (X) X Pr(X S T) + Priya 00 X (1 — Pr(X € T;)) 

(4. 4) 
30 Pra; =1,°4 0Sj&|TI; Pr»; 70,2 ij. 

该 公式 具有 两 层 含义 : 一 方面 ,如 果 项 集 X 没有 出 现在 当前 事务 T, 中 ,那么 
Pr>i,;(X) 的 取 值 与 Pr>;,;-1(X) 相 等 ,这 种 情况 存在 的 概率 是 (1 一 px (ti)); 另 一 方面 , 若 
EME X 出 现在 当前 事务 T, 中 ,那么 在 事务 T, 之 前 的 i 一 1 个 事务 为 支持 项 集 X 的 出 
现 做 出 了 贡献 ,这 种 情况 的 存在 概率 是 px GO. 

显然 ,在 得 到 Prs;,;_1(X) 和 Promi- ORURE F ,很 容易 计算 出 Pr>,(CX) 的 
值 。 而 且 ,Pr>i,;(X) 的 值 还 可 以 用 于 计算 Promi OO WAR, AFE, REER i 递 
减 到 最 小 支持 度 阔 值 min. sup 时 ,就 得 到 了 概率 频 度 Pr>min ar (X) 。 

首先 ,假设 Px[L0,0]==1, Px[1,0j] 二 0。 从 原始 数据 库 中 得 到 Px 1.1] = px GO GX FE 
就 得 到 了 Px[1.2]— px (ti) 十 px Gi (1 一 px (1))。 类 似 地 ,得 到 一 系列 的 值 Px 1.7; ]— 
px Gi) E Px[1.j 110 — px (4;))。 接 着 ,利用 上 述 公 式 ,计算 Px [2.2]= px GO px (ts)， 
然后 是 Px[2,j] 二 Px[1,j 一 1jpx(t;) 十 Px[2,j 一 1](1 一 px(t;))。 

接着 ,开始 下 一 轮 迭 代 : 

Px[m.m] — px (t)) px (to) °°" px (tna) Px Gs) 














-[[»e» GEB1<m<|T) 
icd 


继续 依次 处 理 项 集 X 支持 的 事务 列表 , 当 i 一 min_sup 且 7 一 | 工时 ,就 得 到 了 项 集 X 的 
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概率 频 度 Pr>minsup iri (X) 。 
DPEclat 算法 描述 如 算法 4. 1 所 示 。 





算法 4.1 DPEclat 算法 : 概率 频 度 计 算 模块 。 





输入 : 项 集 XG,pxGi))(1 委 ii 委 |T|)。 
输出 : 概率 质量 函数 Px[i, jlo 
: DPEclat( ) 
: For j = 0 to |T| do 
Px[0, j] = 1; 
: end for 
: For j = 0 to |T| do 
For i= 0 to min(j, min sup) do; 
If i > j 
Px[i, j] = 0; 
else if i > j 


j 
10; Pilis j] = plij] = [Tp 
i=1 


ll; else if i < j; 

12: Px[i. j] 9^ Px[i—1. j—1 | px G2 -PxLi, j - 1] — px G5) 
13: end if 

14: end for 

15: end for 

16: return Px[i. j]; 


o o -30 AUNE 





4.2.4 UBEclat 算法 

UBEclat 算法 包含 三 个 步 又。 

步骤 1 构建 概率 数据 库 PDB 的 垂直 数据 格式 ,并 按照 双向 排序 策略 将 项 目 排列 在 
Tidlist 数据 结构 中 。 在 概率 数据 库 中 , 当 数 据 由 水 平 格式 转化 为 垂直 格式 时 , 按 顺 序 扫描 
Tidlist 中 的 所 有 项 目 并 丢弃 支持 度 低 于 最 小 支持 度 阔 值 min. sup 的 那些 项 目 。 接 着 计 
算 项 目的 概率 频 度 并 与 最 小 频繁 概率 阔 值 min. prob 比较 。 最 后 基于 双向 排序 策略 ,得 到 
按照 概率 频 度 排序 的 项 目 数据 库 。 
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步骤 2 对 项 目 剪 枝 ,用 交 操 作 和 乘法 计算 得 到 -项 集 的 概率 频 度 。 首 先 , 得 益 于 项 
目 按 支 持 度 顺序 排列 ,可 以 很 容易 地 识别 出 概率 频繁 项 目 。 接 着 ,基于 等 价 类 中 子 集 的 并 
操作 产生 候选 项 集 , 并 使 用 递 推 公式 计 算 每 一 个 项 集 的 概率 频 度 。 通 过 各 自 元 组 中 对 应 
同一 事务 的 项 集 间 的 交 操 作 ,高 效 、 便 捷 地 得 到 所 有 的 候选 -项 集 。 

步骤 3 在 候选 数据 库 Di+: 中 递归 挖掘 概率 频繁 项 集 。 基 于 Apriori 先 验 性 质 , 非 频 
繁 项 集 能 够 迅速 被 识别 出 来 。 并 且 , 算 法 执行 时 也 可 以 有 选择 地 使 用 其 他 剪 枝 策略 优化 
挖掘 过 程 ,如 基于 Tidlist 长 度 的 剪 枝 或 Chernoff 边界 剪 枝 。 接 着 ,基于 1 Wi ELE Hg zt 
投影 数据 库 Diris ER BORE Di+: 由 包含 所 有 (十 1) -频繁 项 集 的 Tidlist 结构 组 成 ,其 
中 每 条 记录 中 的 事务 列表 包含 对 应 的 事务 标识 符 c; 和 其 支持 项 集 的 存在 概率 px (1;)。 

UBEclat 算法 描述 如 算法 4.2 所 示 。 





算法 4.2 UBEclat 算法 : 概率 频繁 项 集 产 生 模 块 。 


输入 : 基于 双向 排序 策略 ,采用 垂直 数据 格式 的 概率 数据 库 PDB. 
输出 : 所 有 的 概率 频繁 项 集 。 

1: UBEclat( ) 

2; while all atoms X; € S do 





3: T;—$; 

4 while all atoms X; € S and sup(X;)>sup(X;) do 
5: R=X;,;UX;; 

6: tidlist CR) = tidlist(X;) N tidlist X5) ; 

7 DPEclatC X); 

8: if Px[i.j ]>min_prob 

9: S=SU{R};T;=T; U{R} 

10; end if 


11: end while 
12: end while 

13: while T;#¢ do 
14: UBEclat(T;) 
15: end while 
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4.3 概率 频繁 项 集 近 似 挖 掘 算法 


依据 概率 频繁 项 集 关 于 支持 度 的 定义 ,概率 数据 库 中 一 个 项 集 的 支持 度 可 以 看 作 一 个 
服从 二 项 分 布 的 随机 变量 ,显然 这 些 随机 变量 是 相互 独立 的 。 因 此 ,依据 中 心 极限 定律 , 当 
概率 数据 库 足 够 大 时 ,可 以 基于 泊 松 分 布 或 高 斯 分 布设 计 概 率 频繁 项 集 近似 挖掘 算法 。 


4.3.1 近似 挖掘 理论 基础 

Bernecker 等 n 呆 通过 理论 和 实验 都 证 明了 基于 泊 松 分 布 和 高 斯 分 布 近似 挖掘 概率 频 
繁 项 集 的 有 效 性 和 准确 性 。 

图 4. 1(a) 显 示 基 于 期 望 支持 度 执行 不 确定 频繁 项 集 挖掘 算法 时 得 到 的 概率 质量 函 
数 与 实际 支持 度 分 布 的 对 比 。 显 然 , 期 望 支持 度 只 是 对 真实 支持 度 分 布 的 非常 粗糙 的 近 
似 。 在 近似 过 程 中 ,关于 支持 度 的 许多 重要 信息 (如 方差 等 ) 都 丢失 了 ,因此 ,无 法 保证 该 
近似 结果 的 可 信和 度 。 图 4.1(b) 显 示 基 于 小 数 泊 松 定律 近似 得 到 关于 支持 度 的 概率 质量 
函数 。 可 以 看 到 ,理论 误差 的 上 界 非常 小 。 实 际 上 ,作者 的 实验 结果 也 证 明了 这 种 近似 方 
法 的 准确 性 很 高 。 
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图 4.1 基于 期 望 支持 度 的 近似 与 基于 泊 松 分 布 的 近似 效果 比较 Ps 
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图 4. 2(a) 显示 基于 中 心 极 限定 理 , 使 用 正 态 分 布 近似 挖掘 概率 频繁 项 集 过 程 中 产生 
的 概率 分 布 函 数 与 实际 支持 度 分 布 的 对 比 ,这 里 累积 分 布 函 数 中 mr 设置 为 min_sup 一 1。 
因为 X 是 一 个 离散 分 布 ,而 这 里 使 用 一 个 连续 的 正 态 分 布 来 实现 近似 ,所 以 ,在 实际 应 用 
中 ,通常 需要 将 积分 运行 到 min_sup 一 0.5 来 代替 min_sup 一 1 以 实现 连续 性 校正 ,这 也 是 
一 个 重要 和 常见 的 补偿 办 法 。 因 此 ,图 4.2(b) 显 示 的 是 运行 连续 性 校正 之 后 的 效果 。 同 
时 ,实验 结果 也 证 明了 使 用 正 态 分 布 近似 挖掘 概率 频繁 项 集 的 有 效 性 和 准确 性 。 
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(a) 基于 正 态 分 布 的 近似 方法 (b) 基于 正 态 分 布 ， 并 运行 连续 性 校正 的 近似 效果 


图 4.2 基于 正 态 分 布 的 近似 与 运行 连续 性 校正 后 的 近似 效果 比较 3 


4.3.2 近似 挖掘 相关 工作 

在 实际 应 用 中 ,目前 有 三 种 公认 的 概率 频繁 项 集 近 似 挖 掘 算法 。 

2010 年 ,Wang 等 提出 了 基于 泊 松 分 布 的 UA priori 算法 ,通常 称 为 PDUA priori 算 
POST 。 该 算法 将 大 量 符合 二 项 分 布 的 项 集 支持 度 近 似 为 泊 松 分 布 , 因 此 ,项 集 的 概率 频 
度 被 重 构 为 泊 松 分 布 的 累积 分 布 函 数 (CDF)。 


PrOD e 1—e? M 4 (4.5) 


=o i! 


这 里 , 泊 松 分 布 中 参数 入 是 随机 变量 的 数学 期 望 和 方差 。PDUApriori 算法 首先 根据 给 定 
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的 最 小 支持 度 阔 值 计 算 项 集 的 期 望 支持 度 ,然后 依据 A priori 先 验 性 质 ,基于 期 望 支持 
EE A. fli Fl UA priori 算法 计算 出 所 有 基于 期 望 支持 度 的 频繁 项 集 ,进而 找到 所 有 基于 概率 
频 度 的 频繁 项 集 。 

在 此 基础 上 ,Calders 等 中 提出 了 基于 正 态 分 布 的 概率 频繁 项 集 近 似 挖 气 算 法 一 一 
NDUAprior 算法 。 其 原理 是 ,根据 李 雅 普 诺 夫 (Lyapunov) 中 心 极限 定理 ,服从 泊 松 二 项 
分 布 的 概率 频 度 可 以 近似 为 正 态 分 布 ,只 要 待考 虑 的 数据 库 足 够 大 即 可 。 因 此 ,Calders 
基于 标准 正 态 分 布 对 项 集 的 概率 频 度 进行 改写 : 

N X min_sup — 0.5 — | 





(4.6) 
y Var(X) 


这 里 ,B(，。) 是 标准 正 态 分 布 的 累积 分 布 密 度 , Var(X) 是 项 集 X 支持 度 的 方差 。 根 据 中 
心 极限 定理 ,在 事务 数据 库 足 够 大 的 前 提 下 ,符合 泊 松 二 项 分 布 的 随机 变量 将 以 高 概率 值 
近似 为 正 态 分 布 。 采 用 Apriori 框架 ,NDUApriori 算法 借用 标准 正 态 分 布 的 累积 分 布 函 
数 来 计算 概率 频 度 ,反馈 所 有 的 概率 频繁 项 集 。 当 前 ,NDUApriori 算法 被 证 明 是 适用 于 
数据 量 巨 大 的 稠密 概率 数据 库 的 最 快 挖掘 算法 。 与 PDUApriori 算法 不 同 , NDUApriori 
算法 的 优势 在 于 能 够 直接 找到 所 有 基于 概率 频 度 的 频繁 项 集 。 然 而 ,由 于 使 用 UA priori 
框架 ,NDUApriori 算法 不 适用 于 较 大 的 稀疏 数据 库 。 因 为 它 继承 了 Apriori 框架 的 普遍 
缺陷 ,也 就 是 可 能 致使 候选 项 集 数量 庞大 并 引发 计算 量 泛滥 问题 。 

综合 前 人 的 工作 ,UH-mine 算法 适合 用 于 较为 稀 玻 的 概率 数据 库 , 在 执行 基于 期 户 
支持 度 的 频繁 项 集 挖掘 方面 表现 出 了 明显 的 性 能 优势 。 同 时 ,基于 正 态 分 布 的 频繁 项 集 
近似 挖掘 方法 可 以 优化 挖 握 效率 ,捕获 高 质量 的 近似 概率 频 度 。 因 此 ,在 总 结 上 述 近 似 挖 
掘 算法 特点 的 基础 上 ,Tong 等 合并 UH-mine 算法 和 正 态 分 布 近似 方法 的 优势 ,提出 了 
NDUH-mine 算法 bs 。 实 验 结 果 证 明 , 这 种 强 强 联 合算 法 在 稀 芍 的 概率 数据 库 中 取得 了 
明显 优势 。 另 外 ,实验 过 程 中 也 获得 了 如 下 重要 结论 。 

(1) 在 足够 大 的 稠密 概率 数据 库 中 ,NDUApriori 算法 是 目前 最 快 的 概率 频繁 项 集 挖 
掘 算法 ;在 足够 大 的 稀 玻 概率 数据 库 中 ,NDUH-mine 算法 在 空间 占用 和 可 扩展 性 方面 都 
获得 了 明显 优势 。 

(2) 基于 正 态 分 布 的 近似 挖掘 方法 在 基于 期 望 支持 度 的 频繁 项 集 挖掘 和 基于 概率 频 
度 的 频繁 项 集 挖掘 这 两 种 技术 之 间 搭 建 了 一 条 互通 互 达 的 桥梁 。 

(3) 在 算法 挖掘 效率 和 内 存 占用 等 性 能 指标 上 ,概率 频繁 项 集 近 似 挖掘 方法 明显 优 


Pr(X) = of 


88 /智能 数据 挖掘 一 一 面向 不 确定 数据 的 频繁 模式 


于 目前 存在 的 概率 频繁 项 集 精确 挖掘 方 法 。 


4.3.3 NDUEclat 算法 

总 结 前 人 的 研究 成 果 和 宝贵 经 验 ,概率 频繁 项 集 近 似 挖掘 算法 与 基于 期 望 支持 度 的 
频繁 项 集 挖掘 方法 相 比 ,具有 类 似 的 挖掘 效率 , 且 前 者 有 效 避 免 了 信息 丢失 。 因 此 ,概率 
频繁 项 集 近 似 挖掘 算法 被 证 明 是 目前 更 有 前 途 的 方法 之 一 。 因 为 只 要 待考 虑 的 概率 数据 
库 足 够 大 ,算法 就 会 以 极 高 的 可 信和 度 返回 所 有 频繁 项 集 的 概率 频 度 。 然 而 ,从 前 面 的 研究 
内 容 也 看 到 ,前 人 的 近似 挖掘 方法 都 是 针对 水 平 数据 格式 的 概率 数据 库 , 目前 还 没有 适用 
于 垂直 数据 格式 的 概率 频繁 项 集 近 似 挖掘 算法 。 

在 概率 数据 库 中 ,计算 所 有 项 集 的 概率 频 度 是 一 项 比较 耗 时 的 工作 。 为 改善 算法 的 
运行 效率 ,本 书 作 者 基于 Eclat 框架 改进 频繁 项 集 挖 掘 算法 ,提出 一 种 新 的 概率 频繁 项 集 
近似 挖掘 方法 一 一 NDUEclat 算法 。 

前 人 的 研究 表明 ,大 多 数 不 确 定数 据 库 都 是 稀 玻 数据 库 , 且 经 典 的 Eclat SEI TE R Bi 
数据 库 中 普遍 取得 了 良好 效果 。 综 合 考虑 基于 Eclat 框架 的 概率 频繁 项 集 挖掘 算法 和 基 
于 正 态 分 布 的 近似 方法 ,将 这 两 种 技术 合并 使 用 ,为 的 是 在 数据 量 巨大 的 稀 玻 数据 库 中 实 
施 挖掘 任务 时 取得 双赢 的 效果 。 

1. NDUEclat 算法 中 概率 频 度 的 近似 化 

在 NDUEclat 算法 中 ,每 个 项 目的 期 望 支持 度 exsup(x) 由 定义 计算 得 到 ,即将 处 于 
同一 记录 的 存在 概率 县 加 ,因为 这 些 存在 概率 关联 的 是 Tidlist 数据 结构 中 的 同一 个 项 
目 。 接 着 计算 其 方差 。 公式 如 下 : 


Sn? = MPrG, = DA — PrG, = 1)) (4.7) 


k=1 


接 下 来 ,在 数据 量 足够 大 的 前 提 下 ,概率 频 度 的 近似 值 可 以 根据 标准 正 态 分 布 的 累积 
分 布 函 数 计算 得 到 : 








(4. 8) 


ET o( insur — 0.5 — expsup(x) ) 


Sn 
如 果 frequent X) Z« min. sup. MMA X 就 是 基于 概率 频 度 定义 的 频繁 项 集 。 
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2. 计算 -模式 的 期 望 支持 度 

首先 考虑 二 2 的 情况 。 例 如 ,计算 2- 项 集 {a,x} 的 期 望 支持 度 : 

exsup({a,r}) = (tsp. Gi) X p.) | p, € tidlist(a) H p- € tidlist(x)} 
如 有 必要 ,应 用 2- 频 繁 项 集 {a,z} 和 {a,y} 的 交 运 算计 算 3- 项 集 {a,x,y) 的 期 望 支 
BH. 


ITI 


exsupClasx) U (asy) 40 =>) [[ PG x TI PG [I PG» 


i=1 z€ {a,x} z€ lasy} z€ {a} 
LT] 

=) [[ Pew) [[ Pc» 

i=l z€ {z} z€ {a,y} 

LT] 


- PG) x [[ Pt) 


i=] z€ a.a) z€{y) 
相应 得 到 3- 项 集 的 期 望 支持 度 : 
exsup({asxsy}) = {ti: exsup({asx} sti) X p,UD | {asx}, {asy} € D; H 
ti: exsup({a,y} ,ti) € tidlist({a.y}) H. 
tsp.) € tidlist({x})} 
类 似 地 ,可 以 得 到 (k 十 1)- 项 集 {A,zx,y} 的 期 望 支持 度 (这 里 A 是 频繁 项 集 且 二 2): 
exsup({A,x,y}) = {ti: exsup({A,z},ti) Xp,(ti) | {Asx}, {Asy} € D, H 
ti: exsup((A.ax) .4) € tidlist({A,2}) H. 
ti: p, C) € tidlistCy); 
此 外 ,由 于 概率 数据 库 D 中 的 项 目 按照 期 望 支持 度 排 序 , 所 以 可 以 先 用 较 短 项 集 进行 计 
算 以 减少 计算 开销 。 


4.4 实验 结果 及 分 析 
本 节 在 概率 数据 库 上 分 别 测试 基于 Eclat 框架 的 概率 频繁 项 集 精 确 挖 据 算法 ( 即 


UBEclat 算法 ) 和 近似 控 掘 算法 ( 即 NDUEclat 算法 ) 的 性 能 。 实 验 运 行 环境 为 : 安装 64 
位 Windows 7 操作 系统 的 主机 一 台 , 处 理 器 为 Intel core(TM) i5-2520M CPU 2. 5GHz， 
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安装 内 存 为 4. 00GB RAM。 其 中 一 部 分 实验 结果 已 经 在 3. 4. 2 节 展 示 并 进行 了 实验 分 
析 ,为 避免 重复 Lx HU PETER, 





4.4.1 实验 数据 集 

本 章 选 取 真实 数据 集 和 人 工 合成 的 数据 集 作 为 实验 数据 集 , 其 中 大 部 分 实验 使 用 在 
频繁 模式 挖掘 领域 广泛 认可 的 FIMIO 数据 集 。 该 数据 集 可 以 从 FIMI 提供 的 网 站 免费 下 
载 。 关 于 实验 数据 集 的 详细 说 明 如 3. 4. 1 节 所 述 。 所 有 的 算法 用 Microsoft Visual C ++ 
实现 。 


4.4.2 正 态 分 布 数据 集中 的 性 能 分 析 

在 这 组 实验 中 ,用 高 斯 分 布 发 生 器 生成 概率 数据 库 中 每 个 项 目的 存在 概率 。 实 验 数 
据 集 Kosarak 设置 为 低 均 值 (0. 5) 高 方差 (0. 5) 的 概率 数据 集 ,而 数据 集 Gazelle 设置 为 高 
均值 (0.95) 低 方差 (0.05) 的 概率 数据 集 。 

总 的 来 说 ,Kosarak 和 Gazelle 数据 集 上 的 实验 显示 了 相似 的 结论 ,并 证 明了 改进 算 
法 比 以 往 方法 具有 更 好 的 性 能 表现 。 主 要 结论 如 下 。 

(1) 在 给 定 相 同 的 min. sup 阅 值 后 ,概率 频繁 项 集 精确 挖掘 算 法 (UApriori 和 UBEclat) 
找到 了 相同 数目 的 频繁 项 集 ( 见 图 4. 3) 。 这 表明 了 UBEclat 算法 的 有 效 性 。 

(2) NDUEclat 算法 与 精确 挖掘 算法 以 及 其 他 概率 频繁 项 集 近 似 挖掘 算法 的 性 能 
比较 如 图 4. 3 所 示 。 显 然 ,UBEclat 和 UApriori 这 两 种 精确 挖掘 算法 找到 了 所 有 频 
繁 项 集 的 完整 集合 ,而 近似 挖掘 算法 一 -NDUEclat 算法 ,即使 在 最 坏 情况 下 ,找到 的 
频繁 项 集 数量 也 占 完整 频繁 项 集 总 数 的 78% 以 上 。 这 证 明了 NDUEclat 算法 的 精 
确 性 。 

G) 在 内 存 占用 相似 的 前 提 下 ,与 其 他 挖掘 算法 相 比 ,NDUEclat 算法 找到 的 频繁 项 
集 集合 中 包含 的 伪 正 例 更 少 ,而 且 节 省 了 运行 时 间 ( 见 图 4.4 和 图 4. 5) 。 与 精确 挖掘 算 
法 相 比 ,实验 结果 显示 近似 挖掘 算法 NDUEclat 具有 更 高 的 挖掘 效率 。 





© 网 址 为 http://fimi. ua. ac. be/data/. 
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Kl 4.3 UBEclat 算法 Gazelle 数据 集 上 的 性 能 比较 : 频繁 项 集 数量 
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图 4.4 UBEclat 算法 在 Gazelle 数据 集 上 的 性 能 比较 : 运行 时 间 
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内 存 占用 /MB 








0.000 0.005 0.010 0.015 0.020 
min_sup 


fl 4.5 UBEclat 算法 在 Gazelle 数据 集 上 的 性 能 比较 : 内 存 占用 


4.4.3 长 尾 分 布 数据 集中 的 性 能 分 析 

近年 来 , 随 着 网 络 技术 和 计算 机 技术 的 迅猛 发 展 ,远程 诊疗 和 在 线 健康 服务 等 新 型 医 
疗 服务 形式 因 其 能 够 个 性 化 定制 、 及 时 响应 以 及 连续 有 效 等 优势 逐渐 得 到 人 们 的 认可 。 
这 组 实验 的 目的 是 评测 概率 频繁 项 集 近 似 挖掘 算法 在 移动 网 络 环境 下 的 性 能 ,为 将 来 用 
于 在 线 中 医 个 性 化 诊疗 和 健康 服务 进行 探索 性 研究 。 

移动 网 络 环境 下 的 数据 库 通常 表现 出 稀 蕉 的 特性 ,如 公共 数据 集 Kosarak 和 
Gazelle。 其 中 ,来 自 匈 牙 利 新 闻 门 户 网 站 的 Kosarak 数据 集 是 一 个 包含 990 002 条 单 击 
流 事务 的 较 大 数据 集 , 而 来 自 电 子 商 务 应 用 的 Gazelle 数据 集 是 包含 59 602 条 单 击 流 事 
务 的 数据 集 。 这 组 实验 评测 基于 Eclat 框架 的 概率 频繁 项 集 改进 算法 在 符合 长 尾 分 布 的 
Kosarak 和 Gazelle 数据 集 上 的 性 能 。 

一 般 来 说 ,人 们 通常 用 正 态 分 布 来 描述 概率 数据 库 中 项 目 出 现 的 不 确定 性 。 然 而 , 根 
据 Rajaraman 等 5 研究 发 现 ,自然 界 中 物理 现象 的 发 生 规 律 与 在 线 网 络 世界 中 各 种 现象 
的 发 生 规律 存在 着 明显 差异 。 实 际 上 ,在 线 网 络 世 界 中 发 生 的 大 多 数 现象 符合 长 尾 分 布 ， 
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而 不 是 人 们 通常 认为 的 正 态 分 布 。 例 如 ,从 网 页 上 下 载 文件 .实现 网 页 跳 转 的 单 击 流 数 据 以 
及 在 线 电子 商务 交易 数据 都 显示 出 长 尾 特征 。 因 此 ,为 模拟 在 线 电子 商务 的 真实 情景 数据 ， 
这 组 实验 用 Zipf 分 布 描述 概率 数据 库 中 各 项 目的 存在 概率 。 也 就 是 说 ,使 用 概率 发 生 器 将 
符合 Zipf 分 布 的 概率 值 导 人 数据 集 Kosarak 和 Gazelle 中 ,作为 每 个 项 集 的 存在 概率 。 

依据 Zipf 分 布 固有 的 性 质 ,与 符合 正 态 分 布 的 概率 数据 集 相 比 ,实验 数据 集 表现 出 
更 显著 的 稀 玻 特性 。 因 此 ,在 给 定 最 小 支持 度 阔 值 min. sup 相同 的 条 件 下 , NDUEclat 算 
法 在 符合 Zipf 分 布 的 概率 数据 集中 找到 了 较 少 的 频繁 项 集 ( 见 图 4.6)。 同 时 ,耗费 的 空 
间 占 用 也 更 多 ( 见 图 4.7) ,需要 的 运行 时 间 也 更 长 ( 见 图 4.8)。 显 然 , 这 是 因为 在 不 确定 
移动 网 络 环境 下 ,符合 Zipf 分 布 的 概率 值 为 数据 集中 的 项 目 赋予 了 大 量 较 小 的 存在 概 
率 , 致 使 数据 集 显 示 出 了 极为 稀 玻 的 特性 。 然 而 ,Kosarak 数据 集 上 的 挖掘 结果 (在 
Gazelle 数据 集 上 的 实验 结果 也 类 似 ) 显 示 , 正 态 分 布下 的 实验 结果 与 Zipf 分 布下 的 情况 
在 运行 时 间 的 变化 趋势 .内 存 占 用 的 变化 趋势 这 两 个 方面 是 基本 一 致 的 ( 见 图 4.7 和 
图 4.8)。 也 就 是 说 ,实施 概率 频繁 项 集 挖掘 任务 时 ,在 这 两 种 分 布 的 概率 数据 库 中 得 到 
的 实验 结果 并 没有 表现 出 本 质 差 别 。 符 合 Zipf 分 布 的 概率 数据 集 上 的 实验 呈现 出 运行 
时 间 稍 长 ,内存 占用 略 大 的 现象 ,这 应 该 归 因 于 Zipf 分 布 给 实验 环境 带 来 了 急剧 稀 玻 化 
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图 4.6 NDUEclat 算法 在 Zipf 分 布 数据 集 上 的 性 能 比较 : 频繁 项 集 数量 
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的 特征 。 因 此 ,实验 结果 表明 ,Zipf 分 布 并 没有 对 Eclat 改进 算法 带 来 本 质 的 影响 ,Eclat 
改进 算法 可 以 用 于 不 确定 移动 网 络 环境 下 ,实施 有 效 的 概率 频繁 项 集 挖 气 任 务 3。 
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图 4.7 NDUEclat 算法 在 Zipf 分 布 概率 数据 集 上 的 性 能 比较 : 内 存 占用 
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图 4.8 NDUEclat 算 法 在 Zipf 分 布 概率 数据 集 上 的 性 能 比较 : 运行 时 间 
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4.5 本 章 小 结 


本 章 提出 两 个 基于 Eclat 框架 改进 的 概率 频繁 项 集 挖 掘 算法 ,分 别 应 用 于 概率 数据 
库 中 解决 概率 频繁 项 集 的 精确 挖掘 问题 和 近似 挖掘 问题 。 首 先 ,本 章 介绍 了 概率 数据 库 
中 频繁 项 集 挖 掘 的 相关 概念 。 在 分 析 概 率 频 繁 项 集 精 确 挖 气 方 法 的 基础 上 ,提出 用 于 精 
确 挖 据 概 率 频繁 项 集 的 UBEclat 算法 。 然 后 ,考虑 到 精确 挖掘 算法 的 运行 效率 ,本 童 总 结 
了 不 确定 数据 库 中 频繁 项 集 近 似 控 掘 领域 当前 的 研究 成 果 ,详细 介绍 目前 常用 于 概率 数 
据 库 的 近似 挖掘 算法 ,进而 提出 一 个 用 于 概率 数据 库 的 不 确定 频繁 项 集 近 似 挖掘 算 
法 一 一 NDUEclat 算法 。 该 算法 的 主要 特点 是 : 依据 概率 频 度 挖掘 频繁 项 集 ; 采 用 双向 排 
序 策略 减少 挖掘 过 程 中 的 元 余 操 作 ; 利 用 数据 库 的 垂直 数据 格式 划分 等 价 类 并 分 而 治之 
地 实现 控 气 任务 ,为 解决 数据 量 巨大 的 频繁 项 集 挖掘 问题 提供 思路 。 为 了 检测 这 两 种 改 
进 算法 的 性 能 ,分 别 在 模拟 数据 集 和 真实 数据 集 上 进行 了 实验 。 实 验 结果 证 明了 这 两 种 
改进 算法 的 有 效 性 和 准确 性 。 此 外 ,实验 结果 显示 ,这 两 种 基于 Eclat 框架 的 改进 算法 也 
适用 于 不 确定 移动 网 络 环境 下 实施 有 效 的 概率 频繁 项 集 挖 掘 任务 。 
在 基于 概率 数据 库 的 不 确定 频繁 项 集 挖掘 研究 方面 ,本 章 的 主要 贡献 是 (如 表 4. 2 所 
示 ): 提出 第 一 个 针对 垂直 数据 格式 的 概率 频繁 项 集 精 确 挖掘 算法 一 -UBEclat 算法 ; 提 
出 第 一 个 针对 垂直 数据 格式 的 概率 频繁 项 集 近 似 挖 掘 算法 一 -NDUEclat 算法 。 


表 4.2 ”本章 的 贡献 /标注 LV | 


频繁 项 集 数据 库 类 型 精确 挖掘 算法 近似 挖掘 算法 
基于 期 望 支持 | 水 平 数 据 库 | UApriori, UH-mine UFP-growth ,CUF-growth 
度 的 频繁 项 集 | 垂直 数据 库 | UEclat,UV-Eclat,U-VIPER | U-Eclat 











基于 概率 频 度 水 平 数据 库 | DP DC PDUApriori, NDUApriori, NDUH-mine 
的 频繁 项 集 垂直 数据 库 | UBEclat[-/. J NDUEclat[V ] 
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数据 的 不 确定 性 通常 分 为 两 种 情况 : 主观 原因 引入 的 数据 不 确定 性 和 客观 原因 导致 
的 数据 不 确定 性 。 对 应 的 分 别 是 概率 数据 和 容错 数据 。 前 两 章 主要 针对 概率 数据 库 进 行 
不 确定 频繁 项 集 挖 握 方法 的 研究 。 重 点 介绍 了 基于 支持 度 的 双向 排序 策略 ,并 将 该 策略 
嵌入 两 种 基于 概率 频 度 的 不 确定 频繁 项 集 挖 气 算 法 ,分 别 用 于 概率 数据 库 中 实施 概率 频 
繁 项 集 的 精确 挖掘 和 近似 挖掘 任务 。 本 章 研 究 面向 容错 数据 的 近似 频繁 模式 挖 气 方 法 。 
5. 1 节 首 先 介绍 容错 数据 库 中 的 频繁 模式 挖掘 理论 以 及 粗糙 集 理论 在 容错 数据 挖掘 中 的 
应 用 ,5. 2 节 提 出 面向 容错 数据 的 近似 频繁 模式 挖掘 方法 ,5. 3 节 介 绍 该 方法 在 模拟 数据 
集 上 的 实验 情况 和 在 传统 中 医药 数据 集 上 的 应 用 ,5. 4 节 对 本 章 进 行 总 结 。 





5.1 容错 数据 中 的 频繁 模式 挖掘 理论 


5.1.1 容错 数据 模型 

实际 应 用 中 ,许多 源 数据 本 身 已 经 包含 错误 和 不 确定 性 ,由 于 研究 人 员 无 法 具体 识别 
哪些 数据 是 错误 的 ,致使 后 续 的 分 析 处 理 操 作 只 能 在 包含 错误 的 数据 中 进行 。 在 频繁 模 
式 挖掘 领域 ,这 样 的 数据 被 称 为 容错 数据 。 容 错 数据 通常 使 用 二 进 制 矩 阵 的 形式 来 描述 
(如 表 5.1 所 示 )。 其 中 ,1 表示 该 事务 中 包含 当前 项 目 , 而 0 则 意味 着 当前 项 目 并 没有 出 
现在 指定 事务 中 。 这 一 项 目 值 的 缺失 可 能 是 由 于 随机 噪声 等 不 确定 因素 造成 的 ,也 可 能 
该 缺失 值 正 是 反映 了 实际 应 用 的 真实 数据 分 布 e3] 。 

目前 ,针对 容错 数据 的 频繁 模式 挖掘 研究 通常 称 为 近似 频繁 模式 挖掘 或 容错 频繁 模 
式 挖掘 。 


5.1.2 容错 数据 的 挑战 
数据 挖掘 的 目的 是 发 现 数据 中 隐藏 的 新 颖 的 具有 实际 应 用 价值 的 知识 ,然而 , 现 有 的 
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传统 挖掘 算法 在 处 理 大 量 的 不 精确 数据 时 存在 着 明显 缺陷 。 庆 幸 的 是 ,近似 频繁 模式 控 
掘 方法 为 解决 这 一 问题 提供 了 新 的 思路 。 本 章 主 要 关注 近似 频繁 模式 挖掘 方法 用 于 处 理 
容错 数据 时 面临 的 挖掘 效率 低下 ,挖掘 结果 无 法 直接 贡献 于 实际 应 用 等 问题 。 

当前 ,现实 应 用 中 采集 到 的 数据 大 多 是 不 完美 的 ,数据 的 不 完美 特征 表现 为 不 完整 
性 ,不一致 性 .不 确定 性 等 形式 ,这 影响 了 挖掘 效率 的 提高 ,损害 了 挖掘 结果 的 可 靠 性 及 可 
用 性 。 具 体 表现 如 下 。 

1. 大 数据 量 的 影响 

几乎 所 有 算法 的 运行 效率 在 时 间 空间 占用 上 对 数据 量 都 是 敏感 的 ,同样 ,数据 挖掘 
技术 的 实现 效率 与 待 处 理 的 数据 量 也 存在 着 密切 关系 。 随 着 信息 技术 的 迅猛 发 展 ,需要 
处 理 的 数据 量 日 益 庞大 , 面 对 这 一 新 的 挑战 ,新 兴 技 术 不 断 涌现 中。 例如 ,候选 项 消除 算 
法 使 用 启发 式 方法 合并 同一 个 等 价 类 中 的 属性 ,获得 可 能 的 长 频繁 模式 ,然后 在 精简 后 的 
搜索 空间 执行 挖掘 任务 ,从 而 提高 了 挖掘 效率 。 

2. 噪声 数据 的 影响 

在 数据 收集 或 数据 传输 阶段 ,经 常会 引入 非 系统 性 错误 ,通常 称 之 为 噪声 数据 。 不 幸 
的 是 ,目前 还 没有 有 效 的 方法 能 消除 或 避免 这 些 噪声 25 。 当 前 的 研究 要 求 ,数据 挖掘 过 
程 中 使 用 的 数据 模型 在 面 对 噪 声 数据 时 应 该 是 不 敏感 的 Ps9 。 因 为 一 旦 事务 数据 库 中 的 
数据 受到 噪声 干扰 ,存在 的 噪声 扰动 会 导致 现存 的 挖掘 方法 很 难 获 得 有 实际 应 用 价值 的 
表 5.1 容错 数据 集 的 二 进 制 表示 方式 
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3. 数据 丢失 的 影响 

受 客观 条 件 限制 ,数据 库 中 的 部 分 数据 ,特别 是 非 主要 属性 ,可 能 存在 遗失 现象 。 一 
个 遗失 的 数据 可 能 表现 为 数值 不 为 人 们 所 知 ,这 时 人 们 会 依据 一 定 的 规则 用 最 接近 的 数 
值 (如 均值 .中 位 数 等 ) 来 替代 未 知 数据 2 ,这 也 许 会 引入 新 的 噪声 ;一 个 遗失 的 属性 
或 许 表现 为 其 数值 不 符合 实际 情况 ,这 时 人 们 会 丢弃 这 条 记录 ,从 而 不 可 避免 地 造成 信 
ARROS, ER R ROET MH ,要求 设计 的 挖掘 算法 在 处 理 遗 失 数据 时 应 该 不 能 过 于 

4. 不 完整 的 数据 

在 实际 应 用 中 ,收集 到 的 数据 往往 是 不 完整 的 和 不 精确 的 。 因 此 ,建立 的 数据 模型 应 
该 能 够 处 理 这 些 近 似 概 念 ,并 以 一 定 的 可 信 度 提供 解决 方案 。 目 前 ,处 理 这 些 问题 时 一 个 
可 行 的 办 法 是 使 用 粗糙 集 理 论 中 的 上 近似 和 下 近似 概念 2 ,因为 这 组 概念 反映 了 一 个 有 
限 全 集中 不 同 分 区 的 相互 关系 。 

5. 宛 余 数据 的 影响 

与 不 完整 数据 相 比 ,待考 虑 的 数据 集 也 可 能 包含 元 余 的 或 意义 不 明显 的 属性 值 。 例 
如 ,在 网 上 购物 或 线 下 实体 店 中 ,不 同 顾客 购买 了 相同 的 商品 应 该 是 普遍 现象 。 所 以 ,在 
数据 控 气 领域, 根据 实 际 问题 的 需要 ,可 以 对 非 关键 属 性 进行 剪 枝 , 以 消除 这 些 元 余数 据 。 

为 了 解决 上 面 列 举 的 数据 不 完美 特性 ,本 章 提出 一 种 基于 粗糙 集 理论 的 近似 频繁 模 
式 挖 据 模 型 。 首 先 , 将 容错 数据 库 转 换 为 不 确定 事务 信息 系统 ,依据 上 近似 和 下 近似 概念 
描述 并 构建 粗糙 数据 集合 的 边界 区 域 , 然 后 将 挖掘 近似 频繁 模式 的 过 程 刻画 为 决策 生成 
器 。 同 时 ,使 用 属性 约 简 技术 删除 元 余 属性 或 不 完整 的 非 关 键 属性 。 最 后 ,基于 格 理论 和 
等 价 类 概念 ,采用 分 而 治之 的 方法 近似 挖掘 容错 频繁 模式 。 
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5.1.3 粗糙 集 理论 及 相关 概念 

本 节 主 要 介绍 粗糙 集 理 论 应 用 于 数据 挖掘 和 知识 发 现 领域 时 涉及 的 重要 概念 和 核心 
思想 。 

信息 系统 ”一 个 信息 系统 可 以 表示 为 一 个 组 对 (U,A) ,其 中 ,U 是 对 象 的 有 限 非 空 集 
合 ,而 A 是 属性 的 有 限 非 空 集合 。 

“信息 系统 ”这 一 术语 提供 了 一 种 用 属性 集合 描述 对 象 的 便捷 形式 。 当 信息 系统 中 某 
些 属性 的 真实 取 值 不 可 得 时 ,可 以 基于 粗糙 集 理论 将 这 些 不 精确 的 属性 值 补 充 完整 。 其 
方法 是 : 首先 构建 一 个 不 确定 信息 系统 ,然后 利用 下 近似 和 上 近似 概念 将 不 确定 信息 系 
统 中 隐藏 的 知识 表示 为 决策 规则 的 形式 。 显 然 , 这 种 便捷 的 粗糙 集 理 论 模型 是 建立 在 不 
可 分 辨 关系 之 上 的 。 

不 可 分 辨 关系 ”在 一 个 信息 系统 D=(U,A) 中 , 令 B 为 属性 集合 A 的 非 空子 集 。 给 
4 Va€ Bex; x; €U WMF alx) ar) HE x: 和 zi 具有 不 可 分 辨 关系。 可 表示 为 

Rs = (G,z;) € UXU: a(zi) = a(az;),a € Bj (5.1) 

等 价 类 ”不 可 分 辨 关系 Rs 也 是 一 个 等 价 关系 。U 的 全 集 可 以 划分 为 多 个 不 相交 的 
等 价 类 ,表示 为 U/B, 即 U 在 属性 集 B 上 的 分 区 。 这 样 ,包含 对 象 x; 的 等 价 类 表示 为 
[zxijs, 即 [zxij]s 二 {zx;EU: (rir) ERs} FAX Rs 称 为 属性 集 B 的 基 集 。 

对 于 任意 集合 XESU , 若 要 准确 描述 出 X 一 定 属于 哪个 等 价 类 显然 是 不 科学 的 。 因 
此 ,人 们 在 不 可 分 辨 关系 的 基础 上 引入 下 近似 和 上 近似 的 概念 来 描述 集合 X 的 特征 。 

下 近似 和 上 近似 ”给 定 任意 集合 XEU. X 的 下 近似 是 由 确定 属于 X 的 对 象 组 成 的 
集合 ,表示 为 BCX)。X 的 上 近似 是 由 可 能 属于 X 的 对 象 组 成 的 集合 ,表示 为 BCX) 。 

BOO = iz; € Ui[x]; S X) (5.2) 


BOO = à € Ui] N X 9) (5.3) 
5.1.4 粗糙 集 理 论 在 数据 挖掘 中 的 应 用 


1991 年 ,Pawlak 等 2 提出 的 粗糙 集 理论 成 为 国内 外 研究 领域 的 一 个 学 术 热 点 。 作 
为 不 确定 数据 环境 下 对 概念 近似 的 一 种 方法 ,粗糙 集 理 论 引 起 了 科研 工作 者 的 广泛 关注 
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并 实际 应 用 于 各 个 领域 ”1 ,如 数据 挖掘 领域 的 分 类 、 聚 类 和 关联 分 析 等 。 

l. 粗糙 集 理论 用 于 分 类 不 精确 或 不 完整 的 数据 

在 分 类 研究 方面 ,粗糙 集 理论 主要 用 于 特征 约 简 29 和 有 监督 学 习 F 2 。 为 了 解决 
大 数据 集中 执行 算法 的 时 间 空间 复杂 度 过 高 以 及 扩展 性 差 等 问题 ,Nguyen 提出 基于 粗 
糙 集 理论 的 分 类 方法 55 。 该 方法 依据 懒惰 学 习 思 想 和 A priori 算法 ,构建 一 个 自 适应 的 
规则 产生 系统 ,用 于 解决 增 量 数据 环境 下 的 分 类 问题 。 

2. 粗糙 集 理论 在 聚 类 中 的 应 用 

聚 类 技术 是 解决 事务 集合 中 各 研究 对 象 间 是 否 “ 相 似 ” 这 一 近似 概念 的 有 效 方法 。 目 
前 有 效 的 聚 类 方法 不 断 涌现 ,但 是 大 部 分 算法 并 没有 区 分 遗失 属性 值 对 聚 类 结果 的 影响 ， 
从 而 导致 聚 类 质量 低下 ,限制 了 聚 类 技术 在 实际 应 用 中 的 适用 性 。 因 此 ,科研 工作 者 提出 
基于 粗糙 集 理论 的 聚 类 算法 ,用 于 分 析 处 理 模糊 数据 或 不 确定 数据 的 聚 类 问题 "9 。Li 
等 (中 提出 了 基于 聚 类 的 遗失 数据 插 补 方法 。 合 并 模糊 集 理论 和 粗 烽 集 理论 的 K-means 
算法 使 得 聚 类 过 程 对 非 精确 数据 和 不 确定 数据 更 具 健 壮 性 。 应 用 改进 后 的 模糊 粗糙 聚 类 
算法 处 理 不 完整 数据 的 实验 结果 表明 ,在 四 种 K-means 算法 的 比较 中 ,改进 算法 取得 了 
最 佳 性 能 。 此 外 ,为 了 处 理 聚 类 中 的 不 确定 性 问题 , Herawan 等 "中 提出 了 最 大 依赖 属性 
(Maximum Dependency Attributes) 技 术 解决 实际 应 用 中 聚 类 方法 的 选择 问题 。 该 技术 
的 核心 是 基于 粗糙 集 理论 ,结合 数据 库 中 各 属性 间 的 独立 性 综合 考量 ,确定 合适 的 聚 类 算 
ik. Polkowski 等 29 综述 了 前 人 在 聚 类 研究 方面 基于 粗糙 集 理论 的 数据 分 析 成 果 。 显 
然 ,作为 一 种 符号 化 的 数据 分 析 工 具 ,粗糙 集 理论 模型 已 经 发 展 成 为 可 行 的 聚 类 分 析 系 统 
的 重要 组 成 部 分 。 

3. 粗糙 集 理论 在 关联 分 析 中 的 应 用 

在 数据 库 中 搜索 有 代表 性 的 关联 规则 问题 可 以 转化 为 在 属性 子 集 形成 的 格 中 进行 关 
联 规 则 搜索 问题 所 "2 。 目 前 主要 有 两 种 搜索 策略 : 自 底 向 上 的 搜索 和 自 项 向 下 的 搜索 。 
自 顶 向 下 的 方法 从 整个 描述 子 集合 开始 ,依次 向 下 扫描 各 个 格 ,在 每 一 个 格 约 简 宛 余子 集 
的 同时 保留 有 意义 的 子 集 用 于 生成 新 的 候选 项 集 。 然 而 ,这 一 处 理 过 程 是 一 个 NP-hard 
问题 ,计算 量 极 大 。 

基于 粗糙 集 理 论 的 方法 一 般 遵 循 自 底 向 上 的 处 理 策 略 。 首 先 从 描述 子 的 空 集 开始 ， 
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依次 向 上 产生 候选 项 集 。Liu 和 Poon 描述 了 生成 决策 表 的 贪 禁 启发 式 算法 的 改进 版 
本 。 其 解决 的 主要 问题 是 有 效 计算 描述 子 在 分 辨 矩阵 中 出 现 的 次 数 , 同 时 指出 该 出 现 次 
数 等 于 描述 子 所 在 列 中 0 的 个 数 。 

4. 粗糙 集 理论 在 序列 模式 挖掘 中 的 应 用 

近年 来 ,粗糙 集 理论 也 逐渐 出 现在 序列 模式 挖掘 应 用 领域 。Bisaria 55017 将 粗糙 集 
理论 中 的 不 可 分 辨 关系 应 用 于 搜索 空间 分 区 问题 ,提出 的 粗糙 集 分 区 算法 允许 在 执行 控 
掘 任务 之 前 创建 模式 并 调整 时 间 约 束 。 与 传统 的 序列 模式 挖掘 算法 GSP 相 比 ,新 算法 在 
时 间 开 销 上 至 少 提高 了 10 倍 。 此 外 ,在 包含 错误 数据 的 序列 集合 中 ,有 价值 的 模式 通常 
隐藏 在 噪声 数据 中 ,造成 某 些 重要 模式 部 分 或 完全 不 可 见 。 为 了 解决 这 一 难题 ,Kaneiwa 
和 Kudo 中 提出 一 种 基于 粗糙 集 的 替代 算法 。 首 先 将 序列 集合 转换 成 序列 信息 系统 , 然 
后 在 序列 信息 系统 中 利用 决策 类 的 不 可 分 辨 关系 创建 针对 决策 规则 的 评 鉴 准则 ,进而 发 
现 所 有 可 能 的 序列 模式 。 

尽管 容错 数据 中 的 不 确定 特性 与 上 述 系 统 中 的 非 精 确 数据 特征 极为 相似 ,然而 ,在 当 
前 的 文献 资料 中 ,还 没有 发 现 基于 粗糙 集 理 论 的 近似 频繁 模式 挖掘 算法 。 


5.2 面向 容错 数据 的 近似 频繁 模式 挖掘 


粗糙 集 理论 是 一 种 有 效 的 数据 分 析 方 法 ,尤其 适用 于 分 析 不 精确 的 、 含 糊 的 或 者 不 确 
定 的 数据 。 在 粗糙 集 理论 中 ,不 精确 概念 可 以 用 一 对 明确 的 集合 区 间 一 一 下 近似 和 上 近 
似 来 描述 ,从 而 构建 出 粗 烽 数 据 集合 的 边界 区 域 。 这 样 , 发 现 近 似 频 繁 模式 的 过 程 就 可 以 
刻画 为 决策 生成 器 ,通过 比较 下 近似 与 上 近似 之 间 的 差异 ,进而 确定 粗糙 概念 应 该 归属 到 
哪个 区 域 。 而 且 , 使 用 粗糙 集 理论 中 的 属性 约 简 技 术 ,还 可 以 将 数据 库 中 相关 属性 进一步 
约 简 ,从 而 删除 元 余 属性 或 不 完整 的 非 关 键 属 性 。 最 后 ,基于 格 理论 和 等 价 类 概念 ,可 以 
将 大 数据 量 问题 用 分 而 治之 的 方法 解决 。 


5.2.1 事务 信息 系统 构建 阶段 
实际 上 ,一 个 事务 数据 库 与 一 个 事务 信息 系统 是 密切 关联 的 ,其 中 事务 的 集合 可 以 看 
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作 信 息 系统 中 对 象 的 集合 ,每 个 事务 包含 的 项 目 集合 对 应 信息 系统 中 的 属性 集合 。 对 于 
含有 非 二 进 制 域 的 属性 ,每 个 属性 可 以 看 作 一 个 项 目 。 这样, 由 多 个 项 目 组 成 一 条 事务 ， 
由 大 量 事务 构成 的 事务 数据 库 就 可 以 转换 为 信息 系统 ,其 中 不 同 的 属性 描述 特定 对 象 , 整 
个 信息 系统 就 是 多 个 对 象 的 集合 。 

事务 信息 系统 ”事务 信息 系统 是 一 个 信息 系统 T= (U,A), 其 中 ,全 集 U 是 事务 的 集 
合 ,A 是 项 目的 有 限 集合 。 

Se mee 
的 形式 。 原 始 数据 库 中 的 每 个 项 目 转换 成 一 个 精确 的 二 进 制 值 , 对 应 信息 系统 中 一 人 
性 的 存在 情况 。 因 此 ,每 个 属性 的 取 值 或 者 为 1, 或 者 为 0, 表示 此 项 目 是 否 出 现在 指 dis 
务 中 。 属 性 值 为 1 意味 着 此 项 目 出 现在 指定 事务 中 ,而 取 值 为 0 表示 此 项 目 在 指定 事务 
中 并 未 出 现 。 实 际 上 ,造成 属性 值 为 0 的 原因 是 多 种 多 样 的 ,例如 随机 噪声 .数据 不 完整 、 
数据 不 一 致 等 ,当然 ,也 可 能 某 些 0 值 的 确 反 映 了 实际 应 用 中 数据 分 布 的 真实 情况 。 

例 5.1 表 5.2 是 由 原始 数据 得 到 的 关系 表 , 描 述 项 目 间 的 相互 关系 。 该 关系 表 中 
每 行 代表 一 个 元 组 ,第 i 个 元 组 用 U; 表 示 ; 每 列表 示 一 个 属性 ,分 别 标记 为 A As AL. 
对 于 给 定 的 元 组 U;, 有 UU; 二 Cai, ,a;,，…,ai,)。 这 一 关系 表 可 以 转换 成 事务 数据 库 T= 
(U,A)( 见 表 5. 3) ,其 中 ,全 集 U 是 事务 (Ui,U,,…,U,) 组 成 的 集合 ,有 限 集 A 是 项 目 
Ai,A:,…,A, 集合 。 


表 5.2 事务 数据 库 中 源 数据 对 应 的 关系 表 
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表 5.3 关系 数据 表 对 应 为 事务 信息 系统 后 用 二 进 制 位 图 表示 























A; Az A; Ay 
U, 1 1 1 0 
U: 1 0 0 0 
U; 1 1 1 1 
U, 0 0 1 1 
Us 1 1 0 0 
Us 1 0 1 1 
U; 0 1 1 1 














5.2.2 等 价 类 生成 阶段 

将 待考 虑 的 数据 库 描述 为 一 个 决策 表 , 进 而 可 以 应 用 粗糙 集 理 论 有 效 地 处 理 不 确定 
数据 ,发 现 数据 间 的 独立 性 。 决 策 表 中 包含 数据 全 集 , 即 不 仅 是 条 件 属性 ,还 应 包括 决策 
属性 。 通 常 一 个 决策 表 中 仅 包含 一 个 决策 属性 。 决 策 值 相 同 的 所 有 对 象 的 集合 称 为 一 个 
类 。 为 了 得 到 必需 的 决策 属性 ,需要 首次 扫描 数据 库 并 将 项 目 集合 中 的 元 素 分 成 三 类 
频繁 项 目 、 近 似 频 繁 项 目 和 非 频 繁 项 目 。 

这 里 结合 经 典 的 Eclat 算法 529 和 传统 的 近似 频繁 模式 挖掘 算法 5225 挖掘 所 有 的 频繁 
项 目 和 近似 频繁 项 目 , 进 而 产生 更 长 候选 项 集 ,同时 丢弃 非 频 繁 项 目 , 因 为 这 些 非 频 繁 项 
目 不 可 能 出 现在 更 长 频繁 项 集中 。 也 就 是 说 ,根据 频繁 项 集 支 持 度 的 定义 ,可 以 准确 无 误 
地 找到 所 有 频繁 项 目 ,然后 针对 没有 通过 min. sup 检查 的 项 目 进行 下 一 步 处 理 。 通 过 检 
验 近 似 频 繁 项 集 概念 中 两 个 准则 的 要 求 ,使 用 较为 宽松 的 匹配 准则 ,能 够 发 现 所 有 的 近似 
频繁 项 目 。 接 着 根据 Apriori 先 验 性 质 对 非 频 繁 项 目前 枝 。 

对 于 保留 下 来 的 频繁 项 目 和 近似 频繁 项 目 , 使 用 类 Eclat 算法 中 的 方式 构建 等 价 类 。 
假设 待考 虑 的 项 目 是 按照 字母 序 排列 的 , 先 将 项 集 集合 包含 的 频繁 项 目 划 分 为 不 同 的 等 
价 类 。 接 下 来 在 第 二 次 扫描 数据 库 之 后 ,根据 它们 拥有 的 共同 前 缀 产生 候选 项 集 。 也 就 
是 说 ,对 于 在 第 一 次 数据 库 扫 描 后 (标记 为 Li) 发现 的 频繁 项 目 x, 其 对 应 的 等 价 类 [zx] 由 
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其 自身 和 频繁 项 目 集合 中 的 各 个 元 素 进行 连接 操作 生成 , 即 C, 一 X 一 AL1]BL1], 这 里 
A[1]==x, 且 B[1]&fE Li 阶段 发 现 的 另 一 个 频繁 项 目 。 类 似 地 ,在 第 Le 次 连接 操作 
后 ,得 到 了 含有 上 个 项 目的 等 价 类 [zx] 元素 ,表示 为 : Ci 二 X=A[1]A[2]…A[k 一 1]B[& 一 
1]。 对 所 有 的 A,BEL 1, 有 A[1:k 一 2]= 二 BL[1:& 一 2], 并 且 A[k 一 1] 二 B[k 一 1], 这 里 
XL[i 是 指 第 ;个 项 目 ,XLi: 门 是 指 项 集 X 中 从 索引 i 到 索引 j 的 项 目 集 合 , 即 
[r] = {A[Rj E G, bg—1]EL |all]=61]= {x}, A[l:k—2] = Blk — 2]) 

例 5.2 构成 等 价 类 [a]j] 的 元 素 有 [aj 二 {ab,ac,ad,ae,abc,abd,abcd}。 然 而 ,项 集 
{a,b,e) 是 不 频繁 的 ,事先 已 被 删除 ,所 以 项 集 {a,5,e} 不 属于 等 价 类 [a]。 频 繁 项 集 {5,c}、 
人 0,d} 和 {60,c,d}) 也 没有 出 现在 等 价 类 [a] 中 ,这 是 因为 它们 未 包含 频繁 项 目 {a} 作 为 共同 
前 级, 显然 ,它们 是 等 价 类 [5] 中 的 元 素 ( 见 图 5. D. 





{a} 
IX 
vA {a,d} {a,e} {b,c} (bd) tbe) 
A] | 
{a, b, c} ta, b, d} {b, c, d} {b, d, e} 
Nu 
{a, b, c, dj 


图 5.1 等 价 类 [aj 和 [6] 


这 样 ,依据 连接 操作 中 发 现 的 频繁 项 集 , 待 考虑 的 数据 库 可 以 分 区 为 不 同 的 等 价 类 。 
也 就 是 说 ,等 价 类 分 区 操作 将 候选 项 集 划分 为 互 不 相交 的 集合 ,进而 实现 挖掘 过 程 的 并 行 
化 ,最 终 解 决 大 数据 挖掘 中 的 内 存 占用 问题 。 


5.2.3 下 近似 和 上 近似 的 定义 

目前 的 实际 应 用 中 ,需要 处 理 的 容错 数据 库 通常 分 为 两 种 : 一 种 是 数据 库 中 包含 固 
定 个 数 的 错误 数据 ; 另 一 种 是 数据 库 中 包含 着 一 定 比 例 的 错误 数据 。 在 第 一 种 情况 下 , 随 
着 数据 量 的 增加 ,数据库 中 存在 的 错误 数据 个 数 固 定 不 变 , 因 而 针对 此 类 数据 库 的 近似 频 
繁 模式 挖掘 算法 中 ,Apriori 先 验 性 质 依然 成 立 。 而 在 第 二 种 情况 下 , 随 着 数据 量 的 增加 ， 


第 5 章 基于 粗糙 集 理论 的 近似 频繁 模式 挖掘 / 105 


数据 库 中 出 现 的 错误 数据 个 数 按照 一 定 的 比例 递增 ,Apriori 先 验 性 质 不 再 成 立 。 这 时 近 
似 频 繁 模式 挖掘 算法 面临 的 最 大 挑战 是 : 由 于 整个 挖掘 过 程 不 再 遵循 ,Apriori 先 验 性 

质 ,容易 带 来 针对 支持 度 的 “计数 爆炸 ”问题 ,并 导致 计算 量 的 NP-hard 问题 。Poernomo 
和 Gopalkrishnan[2 提 出 在 迭代 计算 中 将 数据 错误 进行 整数 化 宽松 的 近似 挖掘 方法 ,也 
就 是 说 ,待考 虑 的 数据 库 中 车 存在 着 按照 一 定 比 例 丢 失 数 据 的 现象 ,可 以 将 丢失 的 数据 近 
似 化 为 固定 个 数 的 数据 丢失 ,这样 仍 然 近 似 满足 A priori 先 验 性 质 , 那 么 就 可 以 使 用 传统 
的 容错 频繁 模式 挖掘 算法 替代 近似 频繁 模式 挖掘 算法 处 理 存在 成 比例 数据 错误 的 数据 
库 。 另 外 ,Liu 和 Poon525 建 议 使 用 剪 枝 策略 进一步 加 速 近似 频繁 模式 挖掘 过 程 , 并 提出 
一 种 贪 禁 启 发 式 算法 。 

受益 于 前 人 的 工作 ,可 以 尝试 一 种 新 的 近似 挖掘 算法 ,其 主要 思路 如 下 : 基于 粗糙 集 

理论 ,定义 频繁 项 集 的 下 近似 和 上 近似 ,从 而 将 容错 数据 库 中 成 比例 的 数据 错误 简化 为 最 
接近 实际 情况 的 固定 个 数 的 数据 错误 ,并 且 在 挖掘 过 程 中 借助 近似 精确 度 来 界定 可 以 接 
受 的 伪 正 例 和 /或 伪 反 例 频繁 项 集 ,在 此 基础 上 依据 Apriori 先 验 性 质 ,使 用 传统 的 容错 频 
繁 模式 挖掘 算法 发 现 所 有 的 近似 频繁 模式 。 

定义 5.1( 下 近似 ) ERRE e, Fl e. HER e, 是 每 行 允许 的 错误 数据 比率 ,e。 是 
每 列 允 许 的 错误 数据 比率 。 在 一 个 事务 信息 系统 T= 二 (U,A) 中 ,对 于 近似 频繁 项 集 XC 
A, 项 集 X 的 下 近似 定义 为 确定 属于 X 的 项 目的 集合 ,这 也 是 支持 度 计数 的 最 佳 下 界 , 表 
示 为 BOO ,有 
= (x; € Ui[xi]s S X) 

zi (5.4) 


nes STG.j) >fa-e) | Al 
[vi € A, DTG, p>la-e)|ul1 


定义 $.2( 上 近似 ) 给 定 容 错 阔 值 s Me. IER e 是 每 行 允许 的 错误 数据 比率 ,s. 是 
每 列 允许 的 错误 数据 比率 。 在 一 个 事务 信息 系统 == (U,A) 中 ,对 于 近似 频繁 项 集 XC 
ATR X 的 上 近似 定义 为 可 能 属于 X 的 项 目的 集合 ,这 也 是 支持 度 计数 的 最 佳 上 界 , 表 
示 为 B(X), 有 
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BCX) = (x; € U:[zi]s N XY} 


Vi€EU, DTG DlA- lAl] 
j€A (5.5) 


Vij€A, 2G zla-soIulIl 


显然 ,此 模块 的 作用 是 为 近似 频繁 模式 挖掘 界定 搜索 空间 的 范围 。 给 定 项 集 X, 它 的 

近似 必须 不 能 低估 其 自身 和 相应 超 集 的 支持 度 , 而 上 近似 也 不 能 高 估 其 自身 和 相应 超 
kaasa 通过 项 集 X 的 下 近似 和 上 近似 概念 将 容错 数据 库 中 的 错误 数据 个 数 整 数 
化 ,使 得 该 模块 中 的 数据 处 理 过 程 符合 Apriori 先 验 性 质 。 这 样 , 在 处 理 成 比例 数据 错误 
的 容错 数据 库 时 ,就 可 以 使 用 传统 的 容错 频繁 模式 挖掘 算法 实现 有 效 的 近似 频繁 模式 挖 
Ji [E55 . 


5.2.4 近似 频繁 模式 挖掘 阶段 

经 过 以 上 步骤 ,分 别 在 不 同 的 等 价 类 上 构建 了 项 集 的 格 。 本 节 使 用 分 而 治之 的 方法 
遍历 每 一 个 格 以 确定 近似 频繁 项 集 。 

对 于 每 一 个 等 价 类 上 的 操作 ,一 个 重要 问题 是 如 何 合 并 类 内 元 素 从 而 产生 更 长 候选 
项 集 。 优 化 方法 是 将 同一 类 的 项 集 按照 支持 度 升序 排列 。 首 先 从 支持 度 最 低 的 元 素 开 
Ai ,将 此 元 素 与 支持 度 升序 列表 中 的 下 一 个 元 素 进行 连接 操作 。 这 是 依据 支持 度 性 质 ( 见 
3.1.2 节 ): 项 集 的 支持 度 计数 越 大 ,该 项 集 构成 更 长 候选 项 集 的 概率 也 越 大 。 

接着 ,采用 自 底 向 上 的 方式 搜索 每 一 个 格 空间 ,产生 候选 项 集 , 从 而 界定 近似 频繁 项 
集 的 范围 。 一 方面 ,从 近似 频繁 项 目 集合 中 的 单个 项 目 开 始 , 将 它 与 更 多 项 目 做 连接 操作 
生成 更 长 频繁 项 集 ,直至 产生 非 频 繁 项 集 才 停止 项 集 扩 展 过 程 。 因 此 ,仍然 要 求 在 满足 项 
目 限 制 准则 e, 的 前 提 下 产生 候选 项 集 。 也 就 是 说 ,每 次 对 大 项 集 实施 连 接 操作 ,并 产生 
(十 1)- 项 集 。 例 如 ,等 价 类 [a] 中 所 有 的 元 素 依次 进行 连接 操作 以 产生 频繁 2- 项 集 , 然 
后 等 价 类 [ab] 与 {c,d} ,等 价 类 [acj 与 {4,e,f} ,等 价 类 [adj 与 {fe,f}) 中 的 元 素 分 别 做 连接 
操作 。 更 进一步 ,将 产生 的 频繁 等 价 类 [acd] 再 次 与 {e，f} 中 的 元 素 做 连接 操作 ,直至 无 
法 产生 更 长 频繁 项 集 为 止 。 另 一 方面 ,从 一 个 项 目 集合 YY 开始 ,按照 丢失 项 目 个 数 递增 的 
顺序 ,依次 增加 能 够 支持 Y 中 项 目 元 素 的 事务 个 数 ,直至 在 不 违背 项 目 约束 准则 ei 的 前 
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提 下 ,无 法 再 增加 事务 个 数 为 止 。 这 一 步骤 的 主要 目的 是 在 保证 s RU e, 这 两 个 约束 准则 
的 前 提 下 ,完成 对 每 个 候选 项 集 的 近似 支持 度 计 数 ,进而 发 现 近似 频繁 项 集 。 

参考 Cheng 等 55 的 思路 ,将 分 而 治之 方法 的 具体 实现 步骤 详细 描述 如 下 。 

步骤 1 k=1。 给 定 最 小 支持 度 闵 值 min. sup. A BU [ii e. 和 es, 首次 扫描 原始 数据 
E ,计算 每 个 项 目的 近似 支持 度 , 使 用 5. 2. 3 节 的 式 (5.4) 和 式 (5.5) 识 别 原始 数据 库 
中 项 目的 类 型 ,划分 真 频繁 项 集 、 近 似 频 繁 项 集 和 非 频 繁 项 集 , 分 别 标注 作为 后 续 决 策 
表 的 决策 属性 。 当 然 ,这 样 做 的 前 提 和 依据 是 原始 事务 数据 库 可 以 视 为 一 个 事务 决 
KR. 

步骤 2 k=2 4 k—m. MEEFFE h BÉ min_sup & e. 共同 确定 , 即 





supappre — min, sup — &, | U | (5.6) 

而 支持 度 的 下 近似 和 上 近似 分 别 为 
SUPappr-e = min sup—[le, | U | | (5.7) 
SUP appr—e = min sup—le, | U | J (5. 8) 


RIE «Mi k- SOLAS D 3I AW Sc FF RE TD BE Fe d HE [d ig 28 D A AR Eh — 1 
Jj E s Yt [Ut SUAE Sc A B FETTE TESI. SEFF REAR F supas-. AY SUSE Ji F HE Mt 2E TT AE 
而 被 剪 枝 HF BE ES F SU Pappe AY II SE BE FE VE EE BH ETT YE AP BE Ae T SU Paope All SUP appre 
之 间 的 项 集 按 照 递 增 的 顺序 依次 添加 可 能 丢失 的 项 目 。 

步骤 3 按照 丢失 项 目 个 数 递增 的 顺序 ,以 一 定 规则 依次 向 近似 频繁 项 集中 增加 可 
能 遗失 的 项 目 , 每 个 近似 频繁 项 集中 可 添加 的 项 目 个 数 必须 满足 se 约束 , 即 介 于 le,14A|j 
和 |[e,|A| 记 间 。 由 于 添加 的 可 能 遗失 项 目 应 该 同时 满足 se Ale, 约束 ,一 般 情况 下 ,首先 
从 频繁 项 目 集合 中 挑选 可 能 构成 更 长 近似 频繁 项 集 的 项 目 。 因 此 , 若 某 人 项 集中 一 个 项 
目的 支持 度 低 于 supapor-。， 则 该 项 目 不 会 出 现在 任何 更 长 的 频繁 项 集中 。 在 生成 更 长 候选 
项 集 时 ,包含 该 项 目的 大 项 集会 被 剪 枝 。 这 样 ,借鉴 Zaki 文献 中 的 方法 , 尽 可 能 恢复 所 有 
遗失 的 项 目 。 

步骤 4 重复 步骤 2 和 步骤 3, 直 至 依据 min sup 阅 值 以 及 ee, 约束 ,无 法 再 对 当前 
项 集 进一步 扩展 时 ,就 找到 了 所 有 的 近似 频繁 项 集 。 
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5.2.5 精确 度 和 覆盖 度 的 定义 
经 过 5. 2. 1 节 的 转换 操作 ,依据 原始 事务 集合 和 项 目 集合 构成 的 容错 数据 库 得 到 了 


一 个 事务 信息 系统 T= (UA) ,进而 向 信息 系统 工 中 添加 决策 属性 d 构建 一 个 事务 决策 
表 T=(U,AU{d))。 然 后 基于 该 决策 表 生 成 决策 规则 ,形式 如 下 
(ay =m) A Ca; =m) A * A Caja) = nj, 4277 (d = v) (5.9) 


这 里 ,a; 表示 第 i 个 事务 对 应 的 项 集 A; 的 子 集 ,而 每 个 nn; 标志 着 在 满足 容错 阔 值 s， 
Alle. 的 前 提 下 ,项 集 a; 的 支持 度 是 否 大 于 阔 值 min. sup. Br EA n: 的 取 值 为 非 负 整 数 0 
a 1, 

例 5.3 4472 (A min_sup=3 He,=e.=3., WA {c.b.a} J^ EMP PSR: 
(lesa) =1) A C{c.b}=1) ACG 0) =1)>(d=1). 

该 决策 规则 的 含义 如 下 。3- 项 集 {c,0,a} 包 含 3 个 有 可 能 成 为 频繁 项 集 的 2- 项 集 子 
集 , 即 {c,a},{c,p},{0,a}, 因 为 项 集 {c,o,a} 人 允许 支持 度 的 最 大 宽松 尺度 为 |e.14A| |==1。 
也 就 是 说 ,尽管 项 目 Lad RO TELE EAE MEER ERE A EO S EE 
Jii (c b a) HAT RT BE AE X EY. BORE SEF A AE e, IL eco co Sc PEE BL 
min sup 的 要 求 更 加 宽松 ,所 以 项 集 {c,o,a} 的 支持 度 计 数值 也 就 更 有 可 能 达到 近似 频繁 
的 要 求 ,支持 该 项 集 的 事务 元 组 中 相应 的 决策 属性 也 被 设置 为 1。 另 外, 如果 对 支持 度 计 
数 的 要 求 更 严格 的 话 ,这 里 需要 考虑 允许 支持 度 的 最 小 宽松 尺度 为 le,14|j=0。 那 么 ,在 
判断 3- 项 集 {c,b,a} 是 否 频 繁 的 过 程 中 ,就 不 必 考 虑 项 集 {c,b,a} 的 3 个 2- 项 集 子 集 。 

为 了 更 精确 地 发 现 可 能 的 近似 频繁 项 集 , 这 里 为 事务 决策 规则 定义 了 两 个 评价 指标 ， 
目的 是 在 对 大 项 集 进 行 分 类 处 理 时 ,用 于 判断 是 否 需 要 考虑 事务 信息 系统 中 所 有 的 (一 
1)- 项 集 。 

定义 5.3( 子 集 的 支持 度 ) 给 定 项 集 ,在 事务 信息 系统 T= 一 (U,A) 中 ,U 是 事务 的 

合 ,A 是 项 目的 集合 。 考 虑 事务 集合 支持 的 所 有 项 集 对 应 的 子 集 ,其 支持 度 为 
sup(a,A) = >) tla) (5. 10) 


1€U.a€ A 


这 里 可 以 令 o 表示 事务 决策 表 T —(U.AU (d D PHRF Ga =m) A Ca; m) Av 
AC |a, Sna). HRI er C Cd —d;) H a € U, 满足 的 前 提 下 ,人 中 的 决策 规则 p 一 
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Cd= 心 ) 取 值 为 真 。 下 面 定义 决策 规则 r:g>(d 二 di) 的 准确 率 和 覆盖 率 。 
定义 5.4( 基 于 支持 度 的 准确 率 ) Od, 为 决策 属性 4 中 的 一 个 决策 类 ,r 是 事务 决 
策 表 TT' 中 的 一 个 决策 规则 。 决 策 规则 :pg 一 (4d 二 di;) 基 于 支持 度 的 准确 率 定义 为 


sup(d; N gr ,A,) 
sup(gr Aș) 


定义 5.5( 基 于 支持 度 的 覆盖 率 ) Od; 为 决策 属性 d 中 的 一 个 决策 类 ,r 是 事务 决 
策 表 T' 中 的 一 个 决策 规则 。 决 策 规则 rg 一 (4d 二 di;) 基 于 支持 度 的 获 盖 率 定义 为 


sup(d; N er Aj 
sup(d;.A,) 





sup. accuracy (T .r.d;) = (5. 11) 


sup coverage( T'.r.d;) = (5, 12) 


iH. A,— (la€ Ala; 7n H 1<i<|A|}。 

在 这 两 个 评估 参数 中 ,gr 是 事务 全 集 U=UiUU:U…UUIv Il 中 满足 决策 规则 中 
RIF o 的 所 有 事务 ,sup(di 门 pr A, ERR d; 中 满足 条 件 p 的 事务 数目 。 这 样 ,在 近 
似 频繁 模式 挖掘 过 程 中 ,可 以 依据 函数 supCa TO ,使 用 基于 支持 度 的 准确 率 和 覆盖 率 删 
除 无 意义 的 决策 规则 。 


5.3 实验 结果 及 分 析 


为 了 评价 上 述 基 于 粗糙 集 理论 的 近似 挖掘 方法 的 性 能 ,本 节 设 计 实 验 测试 新 模型 在 
模拟 数据 集 和 真实 数据 集 上 的 行为 。 实 验 运行 环境 为 : 安装 64 位 Windows 7 操作 系统 
的 主机 一 台 , 处 理 器 为 Intel core(TM) i5-2520M CPU 2. 5GHz. 安装 内 存 为 4. 00GB 
RAM。 所 有 算法 用 Java 编程 实现 。 


5.3.1 模拟 数据 集 上 的 性 能 分 析 

模拟 数据 集 的 生成 一 般 会 参考 实际 数据 集 的 特点 ,如 随机 噪声 .数据 错误 以 及 数据 宛 
余 等 。 这 里 主要 展示 存在 随机 噪声 时 容错 数据 库 中 的 实验 结果 。 

在 不 含 任何 数据 错误 的 基础 模拟 数据 集 B 上 建立 实验 数据 集 ,过 程 如 下 : 首先 以 概 
率 p 对 事务 元 组 的 属性 值 取 反 达到 引入 随机 错误 的 目的 ,然后 改变 概率 p 的 取 值 ,从 而 产 
生 基 于 基础 模拟 数据 集 、 不 同 含 噪 版 本 的 容错 数据 集 ,表示 为 D,。 下 面 开 始 数 据 集 上 的 
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性 能 评测 : 首先 使 用 确定 频繁 模式 挖掘 算法 针对 实验 数据 集 D, 实施 挖掘 过 程 , 得 到 确定 
频繁 模式 ,作为 基础 事实 , 记 为 Fe 应 用 不 同 的 近似 频繁 模式 挖掘 算法 针对 容错 数 
据 集 D 实施 挖掘 过 PEASE MARORI Fr ;最 后 使 用 准确 率 和 和 覆盖 率 作 为 评价 
指标 ,比较 不 同 挖掘 方法 在 实验 数据 集 上 的 性 能 质 
表 5.4 显 示 了 不 同 频 i aes wee 包括 传统 的 近似 频繁 项 集 挖 
掘 算法 AFI`. 近 似 闭 频繁 模式 挖掘 算法 AC-close 和 RST-based AFI 方 法 。 基 础 模拟 数据 
集 为 使 用 IBM Almaden Quest 研究 小 组 的 数据 生成 器 产生 的 模拟 数据 集 T40110D100K, 
其 中 包含 100K 的 事务 ,943 个 项 目 , 每 个 事务 中 项 目的 平均 长 度 为 40. 61。 显 然 ,在 噪声 
概率 p=0. 05 , ESI PAE e, =e. —0. 2 的 情况 下 ,AFI 和 RST-based AFI 得 到 了 相似 的 覆 
盖 率 ,而 RST-based AFI 在 准确 率 指标 上 获得 了 更 好 的 效果 。 这 表明 ,尽管 实验 数据 集 
中 包含 不 确定 数据 ,新 方法 仍然 能 够 有 效 地 发 现 近似 频繁 模式 。 


表 5.4 AFI 算 法 和 RST-based AFI 75 ;& RJ tE fE EE 2 ( p—0. 05.6, —6, —0. 2) 

















准确 率 /% CE ETKI 
min_sup/% 
AFI RST-based AFI AFI RST-based AFI 
0.5 72.46 71.83 56. 27 56. 11 
1.0 23.12 73.12 61. 03 61. 34 
1.5 81.71 81.71 66. 56 65. 33 
2.0 91.54 91.54 70. 94 71.02 














当 噪 声 概率 逐步 提高 后 ( 见 表 5. 50 ,这 两 种 AFI 算法 找到 近似 频繁 模式 的 能 力 都 大 
幅 下 降 。 因 此 ,评价 指标 准确 率 和 覆盖 率 的 值 也 急剧 降低 。 不 难 理解 ,采用 RST-based 
AFI 方 法 与 运行 传统 AFI 算 法 得 到 的 两 个 覆盖 率 取 值 非常 相似 。 这 一 结论 也 与 噪声 概 
率 p=0.05 的 情况 ( 见 表 5.4) 相 符 。 然 而 ,新 方法 在 评价 指标 准确 率 上 获得 了 更 好 的 性 
能 质量 ,尽管 这 一 优势 并 不 是 异常 显著 。 实 际 上 ,RST-based AFI 方法 更 适合 用 于 关键 项 
目 不 存 在 严重 错误 的 容错 数据 库 中 。 而 这 里 为 了 遵循 真实 数据 的 特点 ,生成 的 模拟 数据 
集中 针对 所 有 项 目 均匀 地 引入 随机 错误 ,所 以 RST-based AFI 方法 也 没有 充分 展示 其 性 
能 优势 。 
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表 5.5 AFI S ik RST-based AFI 方 法 的 性 能 比较 (p=0. 15.6, =e, =0. 2) 

















准确 率 /% 覆盖 率 /% 
min_sup/% 
AFI RST-based AFI AFI RST-based AFI 
0.5 52. 27 57.31 29. 73 28.96 
1,0 53. 64 60. 97 32.45 33.17 
1,5 67.22 74.08 41. 46 39. 93 
2.0 73.73 71.66 46. 29 46.94 














上 述 实验 仅 展示 在 评价 指标 准确 率 和 覆盖 率 上 各 种 近似 频繁 模式 挖掘 方法 的 性 能 对 
比 。 因 为 利用 模拟 数据 集 进 行 性 能 评测 的 最 大 优势 在 于 ,可 以 同时 得 到 没有 数据 差错 的 
确定 数据 集 和 包含 数据 错误 的 不 确定 数据 集 , 所 以 容易 实现 性 能 比 对 ,这 在 实际 数据 环境 
下 是 无 法 做 到 的 。 下 面 的 实验 展示 RST-based AFI 方法 在 真实 的 传统 中 医药 数据 集 上 
的 实验 结果 和 性 能 比较 。 


5.3.2 真实 数据 集 上 的 性 能 分 析 

本 节 评 测 RST-based AFI 方 法 在 传统 中 医药 数据 集 上 的 性 能 特点 。 首 先 , 基 于 传统 
中 医药 处 方 数据 集 构建 处 方 信息 系统 ;然后 ,为 每 一 个 处 方 事务 生成 决策 属性 ,得 到 处 方 
事务 决策 表 ; 最 后 ,应 用 基于 粗糙 集 的 近似 频繁 模式 挖掘 算法 分 析 处 方 的 方剂 组 方 规律 。 

在 实际 应 用 中 ,没有 数据 错误 的 基础 数据 库 是 无 法 获得 的 ,因此 ,实验 中 要 使 用 最 优 
参数 也 是 不 可 能 的 。 这 里 的 实验 目的 是 分 析 和 发 现 中 医 处 方 中 方 剂 组 方 规律 ,为 乙 型 肝 
炎 和 慢 阻 肺 合并 抑郁 症 的 临床 治疗 提供 技术 支持 和 用 药 依据 。 

在 历史 处 方 中 , 不 可 避免 地 存在 着 潜在 错误 和 组 分 丢失 ,致使 一 副 完 整 的 方剂 散落 为 
不 完整 的 缺乏 临床 意义 的 方剂 片段 ,这 也 是 容错 数据 库 形成 的 原因 之 一 , 即 源 数据 库 中 因 
个 别 数据 错误 将 本 来 有 意义 的 长 频繁 模式 分 散 为 无 意义 的 频繁 片段 。 这 时 ,如 果 仅 仅 使 
传统 的 频繁 模式 挖掘 算法 去 发 现 真实 存在 的 方剂 组 方 规律 和 方剂 核心 组 分 ,显然 是 不 
现实 的 。 此 外 ,在 处 方 生成 过 程 中 ,一 般 是 精通 中 医 的 医生 口述 或 手写 各 味 中 草药 药材 ， 
通常 不 会 失误 。 但 在 处 方 录入 阶段 , 略 懂 中 医 的 助理 或 学 生 可 能 因为 一 时 下 忽 或 未 准确 
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识别 手写 药方 而 产生 随机 错误 。 考 虑 到 待 处 理 数据 集 的 特点 ,认识 到 潜在 错误 或 不 精确 
组 分 基本 都 会 体现 在 中 草药 处 方 中 的 非 核心 药材 上 。 因 此 ,这 里 使 用 RST-based AFI 方 
法 发 现 处 方 数据 库 中 近似 组 方 规律 和 方剂 的 核心 组 分 ,而 不 是 查找 医生 们 熟知 的 中 医药 
配伍 ,因为 这 些 众 所 周知 的 中 医药 配伍 规律 在 相关 的 专业 书籍 中 比比 皆 是 ,所 以 对 发 现 新 
的 中 药方 剂 组 方 规律 .配制 新 药 服务 病人 没有 显著 实用 价值 。 

图 5.2 一 图 5.4 显示 了 使 用 不 同方 法 挖掘 出 的 用 于 生成 近似 频繁 模式 的 候选 项 集 数 
目 。 其 中 AFI 算法 采用 自 底 向 上 的 方法 挖掘 近似 频繁 项 集 , 其 核心 技术 是 使 用 了 0- 扩 
展 .1- 扩 展 以 及 基于 支持 度 的 容 噪 剪 枝 策略 。 但 是 ,AFI 算法 在 挖掘 过 程 中 会 产生 大 量 无 
意义 的 候选 项 集 。 在 AC-close 算法 和 RST-based AFI 方法 中 ,候选 项 集 只 包含 核心 模 
式 , 用 它们 作为 初始 种 子 生 成 近似 频繁 模式 。AC-close 算法 对 两 个 拥有 共同 前 缀 的 (一 
1)- 项 集 实施 并 运算 生成 候选 模式 ,使 用 交 操作 计算 -项 集 的 支持 度 ,与 AFI 算法 相 比 , 明 
显 缩小 了 搜索 空间 。 新 方法 得 益 于 粗糙 集 理 论 中 的 属性 约 简 技 术 ,将 得 到 的 每 个 等 价 类 
上 最 频繁 .最 有 意义 的 项 目 作为 核 模式 扩展 生成 近似 频繁 模式 。 因 此 ,在 基于 RST-based 
AFI 的 方法 中 ,候选 项 集 进 一 步 精简 ,从 而 缩小 了 搜索 空间 。 
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图 5.2 不 同 挖掘 方法 在 生成 候选 项 集 数量 上 的 性 能 比较 : e, =e. 50. 1 
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图 5.3 不 同 挖掘 方法 在 生成 候选 项 集 数 量 上 的 性 能 比较 : e, =e. = 0. 2 
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图 5.4 不 同 挖掘 方法 在 生成 候选 项 集 数量 上 的 性 能 比较 : e, =e. = 0. 25 
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图 5.5 显示 了 不 同 挖掘 方法 在 容错 浆 值 6, =e. 一 0.2、min_sup 取 值 不 断 变 化 的 情况 
下 系统 内 存 的 占用 情况 。 当 min_sup 取 值 从 0. 02 变化 到 0. 16, 这 两 种 算法 的 内 存 占用 
都 相对 稳定 。 然 而 ,在 给 定 了 相同 min sup 取 值 后 ,与 AFI 算 法 相 比 ,RST-based AFI 算 
法 几乎 节省 了 一 半 的 内 存 占用 ,这 得 益 于 其 产生 的 候选 项 集 更 少 , 故 需要 搜索 的 数据 空间 
也 就 更 小 。 
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图 5.5 不 同 挖掘 方法 在 内 存 占用 上 的 性 能 比较 


图 5.6 显示 的 是 事务 数据 库 的 规模 变化 时 ,不 同 算法 的 可 扩展 性 实验 结果 。 这 组 实 
验 中 ,min_sup 二 0.1,e, 二 6. 二 0.2。 从 图 中 所 示 的 实验 结果 可 以 看 到 , 当 数 据 集中 包含 的 
事务 数目 直线 增加 时 ,这 两 种 算法 的 内 存 占 用 都 是 相对 稳定 的 。 

实际 上 ,RST-based AFI 方 法 最 主要 的 优点 是 它 能 够 消除 不 必要 的 属性 ,发 现 有 意义 
的 近似 频繁 模式 。 这 是 因为 ,在 中 医药 研究 领域 ,作为 千 百 年 来 劳动 人 民 实 践 经 验 和 集体 
智慧 的 结晶 ,可 能 的 频繁 项 集 在 专业 书籍 中 早 有 记载 。 对 医生 而 言 , 这 些 传统 的 经 典 组 方 
对 疑难 病症 患者 的 日 常 诊 断 和 治疗 没有 更 新 的 指导 价值 。 此 外 ,RST-based AFI 方法 在 
挖掘 质量 上 也 存在 着 明显 优势 ,因为 它 能 成 功 发 现 处 方 中 的 近似 组 方 规律 和 方剂 核心 组 
分 ,同时 握 弃 历史 处 方 中 的 那些 潜在 错误 组 分 。 
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图 5.6 不 同 挖掘 方法 在 可 扩展 性 上 的 性 能 比较 


5.4 本 章 小 结 


本 章 提出 了 基于 粗糙 集 理论 的 近似 频繁 模式 挖掘 方法 ,用 于 解决 传统 频繁 项 集 挖 掘 
算法 应 用 于 容错 数据 库 时 总 是 得 到 无 实际 意义 的 频繁 片段 这 一 问题 。 首 先 ,本 章 对 粗糙 
集 理论 及 其 在 数据 挖掘 中 的 应 用 进行 介绍 ;接着 ,介绍 RST-based AFI 方法 :最 后 ,介绍 
实验 数据 集 .评价 指标 和 参数 ,并 针对 AFI 算法 .AC-close 算法 和 RST-based AFI 算法 用 
于 模拟 数据 集 和 真实 数据 集 的 实验 结果 进行 比较 和 讨论 。 本 章 提出 的 方法 能 够 在 不 损失 
覆盖 率 的 前 提 下 ,在 一 定 程度 上 提高 挖掘 结果 的 准确 率 , 特 别 适 合用 于 传统 中 医药 数据 
集 , 实 现 具有 实际 应 用 价值 的 近似 频繁 模式 挖掘 任务 。 
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传统 中 医药 方剂 是 中 医 整体 观 ,辨证论治 思想 在 用 药 上 的 体现 。 数 十 年 来 ,中 药方 剂 
的 现代 研究 从 饮片 层次 上 的 全 方 、 拆 方 研究 等 模式 ,发 展 到 有 效 部 位 、 有 效 组 分 有 效 成 分 
层次 上 的 组 分 配伍 研究 模式 。 因 此 ,更 好 地 整理 和 传承 老 中 医 的 方剂 用 药 规律 ,挖掘 核心 
药物 配伍 模式 显得 尤为 重要 和 人 迫切。 在 发 挥 方剂 中 配伍 用 药 的 特色 与 优势 .跻身 药物 研 
究 前 沿 的 道路 上 ,广大 中 医药 研究 人 员 面 临 的 最 大 挑战 在 于 : 如 何 将 中 药方 剂 的 理论 KE 
践 与 新 兴 的 药理 学 有 机 结合 ,发 现 新 规律 ,并 利用 这 些 规 律 来 推动 组 方 用 药 的 理性 设计 。 
针对 这 一 关键 问题 ,本 章 提出 一 个 基于 粗糙 集 理 论 的 Top 近似 频繁 闭 模式 挖掘 模型 。 
在 不 需要 提供 敏感 参数 的 前 提 下 ,该 模型 能 够 以 精简 形式 挖掘 出 具有 实际 理论 意义 和 应 
用 价值 的 近似 频繁 闭 模式 ,应 用 于 传统 中 医药 数据 库 进 行 方剂 组 方 规律 和 核心 组 分 分 析 ， 
进而 协助 新 药 开 发 ,疾病 早期 诊断 和 未 病 预测 等 。 在 传统 中 医药 数据 集 上 的 实验 结果 显示 ， 
该 模型 在 中 医药 应 用 领域 具有 合理 性 和 有 效 性 ,满足 了 针对 中 医药 传统 数据 集 的 控 气 要求。 

本 章 的 主要 内 容 安排 如 下 : 6. 1 节 对 容错 数据 库 中 的 频繁 模式 挖掘 问题 进行 介绍 ; 
6. 2 节 重 点 介绍 应 用 于 中 医药 容错 数据 库 的 新 模型 一 基于 粗糙 集 理 论 的 Top-k 近似 频 
繁 闭 模式 挖掘 模型 ;6. 3 节 将 新 模型 应 用 于 真实 的 传统 中 医药 数据 集 , 展 示 实 验 结果 并 进 
行 实验 数据 分 析 ;6. 4 节 为 本 章 小 结 。 





6.1 相关 工作 


在 电子 医疗 记录 在线 健康 服务 等 实际 应 用 中 ,不 确定 数据 随处 可 见 。 而 传统 的 频繁 
模式 挖掘 算法 在 面 对 这 些 不 精确 数据 时 面临 着 巨大 挑战 。 因 此 ,近似 频繁 模式 挖掘 技术 
应 运 而 生 ,并 在 数据 挖掘 领域 受到 极 大 关注 。 本 节 首 先 介绍 频繁 模式 挖掘 面临 的 问题 , 然 
后 介绍 常用 的 面向 容错 数据 库 的 近似 频繁 模式 挖掘 算法 ,继而 提出 基于 粗糙 集 理论 挖掘 
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Top 近似 频繁 闭 模式 的 新 模型 。 


6.1.1 面临 的 问题 

频繁 模式 ,通常 是 指 以 较 高 频率 出 现在 数据 库 中 的 项 目 集合 、 子 序列 或 子 结构 ,这 
里 的 较 高 频率 是 指 频繁 模式 在 数据 库 中 出 现 的 频率 不 小 于 用 户 指 定 的 最 小 支持 度 阔 值 
Cmin_sup) 。 

近似 频繁 模式 挖掘 的 目的 是 从 伴随 着 大 量 噪声 、 丢 失 值 错误 等 不 确定 数据 的 数据 库 
中 挖掘 出 有 趣 的 、 潜 在 有 用 的 知识 Cs5 ,从 而 实现 近似 关联 规则 发 现 C27 、 含 噪 数 据 库 重 
Fg 79 VI R SUBPEUES 4p 28 / RISUI m 

现实 应 用 中 的 数据 经 常 是 多 样 的 ,有 时 包含 错误 。 若 使 用 传统 的 频繁 项 集 挖掘 算法 
去 处 理 这 些 不 完备 的 数据 , 则 面临 着 巨大 挑战 ,而 且 通常 无 法 得 到 决策 者 需要 的 有 用 
知识 。 

首先 ,应 用 于 确定 数据 库 的 高 效 频 繁 项 集 挖掘 算法 大 都 建立 在 Apriori 先 验 性 质 ( 也 
称 反 单调 性 ) 之 上 , 即 频繁 项 集 的 所 有 非 空子 集 也 是 频繁 的 。 这 也 是 经 典 的 频繁 项 集 挖掘 
算法 对 候选 项 集 剪 枝 , 缩 小 搜索 空间 的 依据 。 然 而 , 反 单 调 性 在 大 多 数 容 噪 数据 库 中 并 不 
成 立 。 因 此 ,近似 频繁 模式 挖掘 算法 只 好 采用 启发 式 方法 逐步 缩小 搜索 空间 。 而 这 种 方 
法 无 法 保证 搜索 空间 的 完整 性 ,只 能 获得 不 精确 的 挖掘 结果 。 

其 次 ,近似 频繁 模式 挖掘 算法 在 (k 十 1)- 项 集 产生 阶段 面临 着 巨大 挑战 。 在 确定 数据 
库 中 ,一 个 频繁 项 集 的 非 空子 集 也 是 频繁 的 ,这 也 是 深度 优先 搜索 应 用 于 频繁 项 集 挖掘 过 
程 的 基石 。 ee Lm 
上 追加 频繁 项 目的 方法 得 到 更 长 候选 项 集 , 只 能 多 次 扫描 原始 数据 库 , 估 算 每 一 个 项 集 的 
实际 支持 度 。 这 样 做 的 结果 是 导致 算法 的 时 间 复 杂 度 增长 为 潜在 项 集 最 大 值 的 指数 级 
别 。 更 有 研究 表明 ,在 容错 数据 库 中 ,候选 项 集 的 支持 度 计算 问题 是 一 个 NP-hard 问 
1877 ,即使 在 错误 个 数 固定 的 容错 数据 库 中 也 不 例外 。 

再 者 ,由 于 数据 库 中 存在 大 量 遗 漏 的 项 目 , 项 集 的 支持 度 降低 ,致使 大 的 频繁 模式 被 
“ 拆 分 ?成 多 个 短 模式 碎片 ,而 传统 的 频繁 模式 挖掘 方法 不 可 能 由 这 些 频繁 模式 片段 发 现 
原始 “完整 ”的 长 频繁 模式 。 因 此 ,近似 频繁 模式 挖掘 方法 受到 极 大 关注 ,研究 人 员 和 希望 找 
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到 合适 的 方法 发 现 容错 数据 库 中 可 能 丢失 的 而 实际 上 真实 存在 的 那些 完整 的 长 频繁 模 
式 。 然 而 ,这 也 带 来 新 的 问题 , 那 就 是 : 与 传统 频繁 模式 挖掘 方法 能 获得 准确 的 频繁 模式 
集合 不 同 ,近似 频繁 模式 挖掘 方法 只 能 获得 大 致 正确 的 挖掘 结果 ,里面 可 能 存在 伪 正 例 或 
伪 反 例 。 如 果 控 掘 算法 处 理 不 当 的 话 ,还 会 产生 错误 结果 。 


6.1.2 近似 频繁 模式 挖掘 算法 

为 了 解决 近似 频繁 模式 挖掘 中 的 各 种 困难 ,前 人 的 研究 成 果 提 供 了 各 种 解决 方法 。 
根据 项 集中 遗失 项 目的 形式 不 同 、 采 用 的 处 理 方式 不 同 ,可 以 将 这 些 方 法 大 致 分 为 三 类 : 
数据 库 中 遗失 了 固定 个 数 项 目的 情况 ;数据 库 中 按照 一 定 比 例 遗 失 项 目的 情况 ;数据 库 中 
依据 一 定 代价 回填 遗失 项 目的 情况 。 

l. 数据 库 中 遗失 了 固定 个 数 项 目的 情况 

这 种 情况 下 , 随 着 数据 量 的 增加 ,数据 库 中 存在 的 错误 数据 个 数 是 固定 不 变 的 ,在 此 
类 型 的 近似 频繁 模式 挖掘 中 , 反 单 调 性 依然 成 立 , 所 以 ,仍然 可 以 采用 经 典 的 频繁 项 集 挖 
掘 框架 来 解决 近似 频繁 模式 挖掘 问题 。 一 种 比较 直接 的 解决 方法 是 放松 对 支持 度 的 计算 
要 求 ,并 不 是 一 个 事务 包含 了 项 集中 的 所 有 项 目 才 认 为 该 事务 支持 此 项 集 ,而 是 只 要 一 个 
项 集中 的 大 多 数 项 目 都 存在 于 某 事务 中 ,就 可 以 认为 这 个 事务 支持 此 项 集 。 

2001 年 ,Pei 等 首先 提出 了 容错 项 集 的 概念 并 设计 实现 了 FT-Apriori 算法 522 。 该 算 
法 采用 生成 -检测 框架 ,依据 反 单 调 性 剪 枝 搜索 空间 ,挖掘 容错 频繁 项 集 。 由 于 FT- 
Apriori 算法 允许 固定 数目 的 遗失 项 目 出 现在 待考 虑 项 集中 ,可 能 会 出 现 某 个 项 目 在 大 多 
数 事务 中 都 存在 遗失 现象 ,只 出 现在 少数 事务 中 的 退化 情况 (如 图 6. 1(c) 所 示 )。 
FT-Apriori 算法 在 处 理 这 种 退化 情况 时 ,容易 导致 挖掘 结果 中 出 现 大 量 与 其 他 项 目 关 联 
度 甚 微 的 伪 正 例 。 

Koh 和 Yo 提出 的 VB-FT-Mine 算法 5259 也 遇 到 了 类 似 难题 。 该 算法 引入 容错 二 
制 位 矢量 来 描述 候选 项 集 的 分 布 。 受 益 于 位 矢量 操作 ,VB-FT-Mine 算法 采用 深度 优先 
增长 的 方法 产生 候选 项 集 , 有 效 发 现 容错 频繁 模式 。 实 验 结果 表明 ,基于 位 矢量 的 VB- 
FT-Mine 算法 将 运行 时 间 效 率 提高 了 一 个 数量 级 。 

考虑 到 容错 频繁 模式 挖掘 算法 的 运行 时 间 是 以 项 目 数量 的 指数 级 别 增长 的 ,为 了 解 
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(a) 完整 数据 集合 (b) 容错 数据 集合 (c) 伪 容 错 数据 集合 
图 6.1 项 集 的 二 进 制 矩 阵 表示 形式 


决 项 目 数量 巨大 的 容错 数据 库 中 频繁 项 集 挖掘 算法 效率 低下 问题 ,Poernomo 等 "中 提出 
了 一 种 BIAS 框架 挖掘 容错 频繁 项 集 的 统计 信息 。 该 框架 包含 回溯 算法 .整数 线性 规划 
限制 和 汇总 统计 三 部 分 ,可 以 在 无 须 得 到 具体 容错 频繁 模式 的 前 提 下 ,获得 关于 容错 频繁 
项 集 的 各 种 统计 信息 ,如 每 个 项 集 对 应 的 事务 集合 的 尺寸 、 每 个 事务 中 出 现 的 项 集 元 素 的 
个 数 等 。 基 于 BIAS 框架 的 挖掘 算法 有 效 改 善 了 容错 频繁 模式 挖掘 的 效率 ,提供 了 针对 
容错 频繁 模式 更 深刻 更 全 面 的 分 析 。 

建立 在 数据 库 中 遗失 了 固定 个 数 的 项 目 这 一 假设 基础 上 的 容错 频繁 模式 挖掘 ,显然 
是 一 种 简化 情况 。 这 类 算法 为 处 理 按 比例 遗失 项 目的 数据 库 提供 了 常规 思路 。 也 就 是 
说 ,增加 一 些 限制 条 件 以 缩小 搜索 空间 ,然后 采用 近似 挖掘 方案 。 需 要 说 明 的 是 ,这 种 情 
况 下 的 挖掘 结果 一 般 都 存在 大 量 伪 正 例 或 伪 反 例 。 


2. 数据 库 中 按照 一 定 比例 遗失 项 目的 情况 

目前 处 理 这 种 情况 的 常用 方法 是 : 首先 采用 更 宽松 的 支持 度 定义 ,将 频繁 模式 匹配 
的 准则 放松 为 只 需 近 似 匹 配 即 可 。 然 而 ,目前 仍然 存在 急需 解决 的 难题 : 在 成 比例 遗失 
项 目的 数据 库 中 , 较 长 的 项 集 允许 遗失 的 项 目 个 数 更 多 ,而 短 项 集 允许 遗失 的 项 目 个 数 较 
少 , 所 以 反 单调 性 不 再 成 立 。 其 后 果 是 ,挖掘 算法 无 法 采用 自 顶 而 下 的 方法 首先 找到 短 模 
式 , 然 后 通过 追加 新 项 目 生 成 更 长 候选 模式 ,最 后 结合 多 种 剪 枝 技术 缩小 搜索 空间 ,检验 
并 发 现 所 有 频繁 模式 这 种 常规 方法 。 为 了 克服 这 一 困难 ,近年 来 研究 人 员 提 出 了 各 种 改 
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进 方案 。 

2001 年 ,Yang 等 站 首先 指出 数据 库 中 存在 按 比 例 遗 失 数 据 的 现实 情况 ;采用 三 个 参 
数 归纳 容错 准则 ,分 别 描述 一 个 项 集中 一 个 事务 中 以 及 整个 模式 中 允许 出 现 的 最 大 错误 
比率 。 为 了 提高 计算 效率 ,Yang 等 对 项 集 增加 了 额外 限制 ,提出 并 区 分 强 容错 频繁 项 集 
(strong ETI) 和 弱 容 错 频繁 项 集 (weak ETD ,进而 采用 启 gn gu 
从 挖掘 出 的 弱 容错 频繁 项 集中 发 现 更 有 意义 的 强 容错 频繁 项 集 ,从 而 得 到 所 有 的 容错 
繁 项 集 。 该 方法 的 理论 依据 是 Yang 等 提出 的 基于 弱 容 错 频 繁 项 集 的 局 部 反 单 调 性 。 
缺陷 是 ETI 模型 没有 解决 退化 情况 下 的 挖掘 问题 ,因而 挖掘 结果 中 存在 大 量 伪 反例 。 

受 ETI 模 型 的 启发 ,文献 [61] 提 出 了 稠密 项 集 (Dense Itemset) 的 概念 ,也 就 是 说 , 作 
者 在 弱 容错 频繁 项 集 的 基础 上 增加 了 一 个 递归 条 件 , 使 得 挖掘 出 的 容错 频繁 项 集 符合 向 
下 闭合 原则 ,这 样 , 反 单调 性 得 以 成 立 。 因 而 可 以 采用 与 经 典 频繁 项 集 挖 气 算 法 类 似 的 宽 
度 优 先 搜索 或 分 层 挖掘 技术 ,更 简洁 地 发 现 容错 频繁 模式 。 稠 密 项 集 模 型 的 优点 是 ,能 够 
应 用 类 似 A priori 算法 中 的 前 枝 技 术 提高 挖 握 效 率 ,但 也 存在 引入 较 多 宛 余 项 目的 缺陷 ， 
这 是 因为 该 模型 放松 了 事务 对 项 集 及 其 子 集 支 持 力 度 上 的 要 求 。 实 验 结果 表明 ,基于 笛 
密 项 集 的 方法 挖掘 出 的 容错 频繁 模式 在 质量 上 不 如 同时 考虑 项 目 和 事务 两 方面 限制 的 挖 
掘 方法 。 

2006 年 ,Liu 等 将 强 容错 频繁 项 集 的 限制 条 件 同 时 扩展 至 单独 的 行 和 单独 的 列 , 提 出 
近似 频繁 项 集 (AFI) 模 型 "9 。 该 模型 在 事务 和 项 目 两 方面 同时 控制 错误 出 现 的 比例 ,并 
采用 容 噪 支持 度 作为 Apriori BY BLAS E fft. AFI 模型 使 用 0- 扩 展 和 1- 扩展 技术 ,宽度 优 
先 , 逐 层 挖掘 ,找到 完整 的 近似 频繁 模式 集合 。 基 于 强 容 错 频 繁 项 集 的 子 集 ,AFI 模型 提 
供 了 一 个 反 单 调 性 的 宽松 版 本 。 然 而 ,由 于 指数 级 合并 计算 操作 的 存在 ,该 模型 也 会 产生 
大 量 的 伪 正 例 。 

得 益 于 AFI 模型 中 容 噪 支持 度 的 优势 ,Gupta 等 建议 在 改进 的 新 模型 中 使 用 类 似 的 
TR Se EHE DY AO) LE HE AFI 模型 中 启发 式 的 后 处 理 步骤 。 因 为 实验 结果 显示 , AFI 
模型 中 的 0- 扩 展 规则 可 能 无 法 识别 完整 的 支持 事务 集 。 因 此 ,Gupta 等 建议 不 再 直接 由 
事务 间 的 并 操作 产生 下 一 层 候 选 模式 ,而 是 在 0- 扩 展 阶段 直接 扫描 整个 数据 库 。 与 初始 
的 AFT 模型 相 比 ,该 方法 可 以 获得 更 加 完整 准确 的 挖掘 结果 。 然 而 ,改进 后 的 新 模型 仍 
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然 没 有 解决 指数 级 别 的 计算 问题 。 

为 解决 这 一 繁杂 的 指数 级 别 的 计算 问题 ,Cheng 等 提出 AC-close 算法 5229 。 该 算法 
在 事务 和 项 目 两 个 方面 同时 限制 数据 中 允许 容纳 的 错误 比例 ,采用 核 模式 思想 挖掘 近似 
频繁 闭 项 集 。 在 AC-close 算法 中 , 核 模式 的 集合 作为 初始 种 子 用 于 产生 近似 候选 项 集 ， 
然后 采用 自 顶 向 下 的 方法 依次 发 现 更 长 近似 频繁 项 集 。 此 外 ,该 算法 也 使 用 有 效 的 剪 枝 
技术 缩小 搜索 空间 。 由 于 AC-close 算法 引入 一 个 新 的 参数 控制 支持 事务 的 比例 ,过 滤 可 
能 产生 的 候选 项 集 , 避 免 了 伪 正 例 。 作 为 一 种 有 效 的 近似 频繁 闭 项 集 挖掘 算法 ,其 挖掘 效 
率 和 准确 率 都 明显 超过 了 以 往 算法 。 

综合 考虑 前 人 的 研究 成 果 .Poernomo 和 Gopalkrishnan 提倡 一 种 不 需要 反 单 调 性 支 
持 的 普 适 性 方法 中。 文献 中 首先 设计 一 个 定 界 函数 用 于 划 定 搜索 空间 ,并 且 推 导出 理论 
最 优 定 界 函数 ,定义 搜索 空间 的 边界 ;然后 提出 按 比例 放松 容错 支持 度 的 有 效 方 法 ,从 而 
将 解决 按 比 例 丢 失 项 目的 问题 转化 为 处 理 固 定 个 数 的 项 目 出 错 问题 ,大 大 简化 了 问题 的 
复杂 程度 。 接 着 ,Liu 等 又 提出 加 速 上 述 算 法 的 技术 5 。 这 两 个 算法 的 最 大 贡献 是 , 它 
们 在 近似 频繁 模式 挖掘 的 两 种 情况 下 , 即 在 固定 个 数 项 目 遗 失 和 按 比例 遗失 项 目 搭建 了 
技术 上 互通 的 桥梁 。 

综 上 所 述 ,在 处 理 包含 一 定 比例 项 目 遗 失 的 容错 数据 库 时 ,前 人 的 研究 成 果 给 人 们 如 
下 启示 。 

CL) 通过 添加 额外 限制 条 件 构造 简化 模型 : 通过 这 种 方法 ,构建 反 单调 性 成 立 的 条 
T ,为 的 是 能 够 使 用 有 效 的 剪 枝 技术 缩小 搜索 空间 。 

(2) 采用 近似 挖掘 的 解决 方案 ,无 法 避免 挖掘 结果 中 错误 信息 的 存在 ,但 是 为 了 改进 
算法 的 执行 效率 ,采用 近似 挖掘 方案 是 有 效 的 和 必需 的 。 因 为 已 经 证 明了 容错 支持 度 计 
数 问题 是 一 个 NP-hard 问题 ,而 且 采 用 基于 启发 式 算法 的 近似 挖掘 方案 是 解决 这 类 NP- 
hard 问题 的 首选 。 

3. 数据 库 中 依据 一 定 代价 回填 遗失 项 目的 情况 

考虑 到 容错 数据 库 中 每 个 项 目 都 有 丢失 的 可 能 ,基于 丢失 代价 的 “回填 ”技术 也 是 解 
决 近 似 频 繁 模式 挖掘 问题 的 可 行 方法 。 用 户 首先 提供 每 一 个 项 目 遗失 的 代价 或 者 惩罚 因 
子 , 然 后 依据 这 些 参 数 将 每 个 可 能 遗失 的 项 目 插 入 到 各 个 事务 中 ,最 后 将 所 有 遗失 项 目 回 
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填 至 容错 数据 库 ,得 到 最 接近 真实 情况 的 事务 数据 库 , 然 后 采用 传统 的 频繁 模式 挖掘 算法 
发 现 潜在 的 有 意义 的 近似 频繁 模式 。 

在 现实 应 用 中 ,对 于 潜在 有 趣 的 项 集 ,由 于 受到 环境 噪声 等 不 确定 因素 的 影响 ,其 支 
持 度 可 能 会 低 于 最 小 支持 度 国 值 。 因 此 ,一 些 研究 者 希望 在 挖掘 过 程 中 ,向 事务 中 重新 插 
入 可 能 遗失 的 项 目 , 这 就 是 文献 [229] 中 递归 消除 算法 的 设计 轧 路。 显然, 这些“ 遗失” 和 
“插入 ”只 是 近似 匹配 的 结果 。 该 算法 逐步 消除 容错 数据 库 中 每 个 项 目 对 应 的 事务 集中 的 
公共 前 级 ,递归 人 处理 余下 的 事务 子 集 , 根 据 给 定 的 代价 参数 回填 可 能 遗失 的 数据 ,直至 所 
有 项 目 都 确定 回填 的 可 能 性 为 止 。 递 归 消 除 算法 的 优点 是 简单 .容易 实现 ,适合 在 实际 应 
用 中 简洁 地 找到 近似 频繁 模式 ,但 在 处 理 数据 量 巨 大 的 应 用 时 所 需 的 运行 时 间 过 长 。 

文献 L[230] 提 出 了 一 种 更 简单 的 频繁 模式 挖掘 算法 SaM 算法 ,并 将 其 扩展 版 本 
用 于 近似 频繁 模式 挖掘 任务 。 当 需要 处 理 的 数据 量 巨大 以 至 于 主 存 无 法 容纳 所 有 数据 的 
情况 下 ,SaM 算法 应 该 是 明显 优 于 类 Apriori 算法 的 选择 。SaM 算法 更 适合 在 稠密 数据 
库 中 执行 近似 频繁 模式 挖掘 任务 ,而 在 处 理 稀 玻 数据 库 时 ,执行 时 间 较 长 ,没有 取得 满意 
的 性 能 。 

文献 [223] 提 出 的 SODIM 算法 依据 项 集 及 其 子 集 尺寸 的 分 布 进行 近似 频繁 模式 挖 
掘 。 与 以 往 基 于 代价 回填 的 方法 不 同 ,该 算法 不 需要 用 户 为 每 一 个 项 目 指定 各 自 的 惩罚 
因子 ,而 是 一 视 同仁 地 对 待 每 一 个 项 目 。SODIM 算法 的 优点 是 ,减少 包含 错误 项 目的 项 
集 所 在 的 事务 对 支持 度 计数 的 贡献 ,通过 搜索 中 间 数 据 的 方法 滤 除 可 能 的 伪 项 集 。 

总 之 ,基于 代价 的 方法 基本 都 是 Christian Borgelt 及 其 科研 团队 的 研究 成 果 。 他 们 
认为 事务 对 支持 度 的 贡献 与 该 事务 中 丢失 的 项 目 个 数 呈 一 定 的 比例 关系 。 每 个 “遗失 ”项 
目 插 入 到 各 个 事务 中 的 代价 是 由 用 户 指定 的 惩罚 因子 , 它 体现 了 特定 项 目 应 该 出 现在 指 
定 事务 中 的 概率 。 可 见 ,为 了 限制 项 目 回填 的 个 数 ,需要 用 户 指定 的 参数 较 多 ,而 每 个 参 
数值 对 挖掘 算法 的 执行 结果 有 着 重要 的 影响 。 因 此 ,由 用 户 指定 所 有 参数 的 正确 取 值 显 
然 是 一 件 很 困难 的 事情 。 此 外 ,这 类 算法 的 时 间 复 杂 度 是 项 目 个 数 的 指数 级 别 , 并 随 着 事 
务 数 目的 增长 呈 线 性 增长 趋势 ,这 也 是 此 类 算法 的 重要 缺陷 之 一 。 
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6.2 ”基于 粗糙 集 理论 的 Top-k 近似 频繁 闭 模式 挖掘 


在 中 医学 理论 中 ,模糊 粗糙 概念 和 不 确定 性 量词 随处 可 见 , 如 八 纲 辩证 中 的 阴阳 、 表 
里 ,寒热 .虚实 ;六 经 辩证 的 太阳 、 阳 明 、 少 阳 、 太 阴 、 少 阴 、 厥 阴 证 等 。 如 何 判 断 这 些 特性 ， 
一 直 没 有 明确 的 界限 ,也 是 不 确定 的 。 中 医 理论 体系 的 建立 历经 几 千年 , 正 是 由 于 其 中 普 
饥 存 在 的 模糊 粗糙 概念 和 不 确定 性 ,造成 了 目前 中 医学 存在 着 "心中 了 了 , 指 下 难 明 交 只 
可 意 会 ,不 可 言传 ”等 问题 ,导致 一 些 古 典 中 医药 方剂 在 历史 传承 的 过 程 中 不 可 避免 地 引 
入 了 部 分 错误 和 遗失 ,给 中 医药 方剂 的 研究 和 中 医药 理论 的 传承 带 来 了 一 定 影响 ,以 至 于 
它 的 现代 化 发 展 常常 给 入 一 种 滞后 的 感觉 。 因 此 ,实现 中 医 的 精确 化 、 定 量化 .科学 化 和 
规范 化 ,需要 利用 科学 化 .现代 化 手段 对 中 医学 进一步 改造 、 发 展 和 完善 "1 ,从 而 适应 现 
代 社 会 的 需要 。 

本 着 应 用 和 服务 于 传统 中 医药 研究 和 发 展 的 需要 ,本 节 提 出 了 Top-k 近似 频繁 闭 模 
式 挖掘 模型 ,其 中 重点 解决 实际 应 用 中 用 户 定义 的 容错 率 对 挖掘 效果 影响 过 大 以 及 挖掘 
结果 过 于 庞大 .其 中 有 意义 的 频繁 模式 难以 迅速 甄别 这 两 个 问题 ,同时 考虑 近似 频繁 模式 
挖掘 中 的 两 个 难题 : 反 单 调 性 问题 和 支持 度 计算 的 NP-hard 问题 。 新 模型 由 三 部 分 组 
成 : 基于 聚 类 算法 划分 事务 类 、 基 于 粗糙 集 理 论 产生 核 模式 .分 层 的 近似 频繁 闭 模式 
挖掘。 

首先 ,根据 每 个 事务 中 包含 的 相同 项 目的 个 数 ,应 用 聚 类 算法 将 事务 数据 库 划分 成 
个 事务 类 ,同一 类 内 的 事务 较为 相似 ,不 同类 间 的 事务 差异 较 大 。 这 样 做 的 目的 是 区 分 不 
同事 务 集合 边界 ,找到 每 一 个 事务 集中 的 公共 项 目 。 

接着 ,建立 一 个 事务 信息 系统 ,其 中 出 现在 同一 个 事务 中 的 项 目 集合 可 以 看 作 一 个 项 
集 。 将 每 一 个 事务 中 的 项 目 集合 看 作 等 待 执行 属性 约 简 的 条 件 属性 ,对 同一 类 中 的 事务 
执行 基于 粗糙 集 理论 的 属性 约 简 技 术 。 操 作 完 成 后 得 到 的 约 简 项 目 集合 就 是 同一 类 中 最 
重要 、 最 频繁 的 项 集 。 

最 后 ,基于 约 简 后 的 项 集 分 别 构建 各 自 的 格 ,然后 用 分 而 治之 的 方法 分 别 在 每 一 个 等 
价 类 对 应 的 “ 格 ? 中 分 层 挖掘 近似 频繁 闭 模式 。 得 益 于 后 向 剪 枝 技 术 和 前 向 容错 搜索 技 
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术 , 只 需 对 至 多 [ke, 锥 层次 进行 挖掘 处 理 就 可 以 得 到 需要 的 近似 频繁 闭 模式 。 


6.2.1 事务 类 划分 阶段 

首先 进行 聚 类 的 目的 是 根据 事务 之 间 的 相似 性 将 数据 集 划 分 成 不 同 的 子 类 ,使 得 同 
属 一 类 的 事务 间 相 似 度 较 高 ,而 不 同类 间 的 事务 相似 度 较 低 。 在 过 去 的 十 几 年 里 ,结合 频 
繁 模式 挖掘 和 聚 类 算法 的 研究 不 断 涌现 2 779 。CDAR 算法 2 根据 事务 的 长 度 将 数据 
集 划 分 成 不 同 子 类 ,通过 减少 类 内 成 员 的 方法 改进 了 挖掘 性 能 。MaxClique 算法 号 将 可 
能 的 频繁 项 集 划 分 为 字母 序 排列 的 非 连续 子 格 ;然后 采用 分 而 治之 的 方法 ,在 每 个 子 格 中 
分 别 实施 频繁 模式 挖掘 过 程 。 显 然 , 该 算法 缩小 了 搜索 空间 ,使 挖掘 过 程 的 并 行 化 成 为 
可 能 。 

这 里 ,在 新 模型 中 ,第 一 步 需 要 使 用 聚 类 算法 识别 模式 的 分 布 , 即 根据 容错 数据 库 中 
数据 内 在 的 相关 性 将 事务 划分 为 不 同 的 事务 类 ,使 得 同属 一 类 的 事务 之 间 相 似 而 不 同类 
中 的 事务 相 异 。 

可 见 ,“ 相 似 ” 或 “ 相 异 ”性 的 度量 极为 重要 。 这 里 依据 不 同事 务 拥有 的 相同 属性 的 个 
数 来 度量 。 下 面 定义 重 倒 度 和 相似 度 来 描述 事务 间 的 可 能 关系 。 

定义 6.1 B RO — 给 定 事务 数据 库 D 中 项 目的 两 个 集合 XY R X Y 的 重生 度 
定义 为 在 这 两 个 项 集中 同时 出 现 的 共同 项 目的 集合 ,一 般 通 过 对 这 两 个 项 集 实施 交 操作 
得 到 。 





overlap(X,Y)= {XMNY|IXEL,YELH t.t C D) (6. D 
定义 6.2( 相 似 度 ) 给 定 事务 数据 库 D 中 项 目的 两 个 集合 X.Y。 项 集 XY 的 相似 
BEXE MAHER X Y 的 重 番 度 中 包含 项 目的 个 数 。 
similarit(X,Y) =| overlap( X,Y) |=| XN Y | 
X€t,Y€¢4Ht;,t; CD (6.2) 
这 样 , 给 定 容错 数据 库 D, 其 中 每 一 个 事务 是 一 个 项 目的 集合 ,所 有 事务 的 集合 构成 
了 整个 数据 库 D。 下 面 通过 聚 类 操作 将 数据 库 D 划分 为 天 个 不 同 的 事务 类 。 具 体 聚 类 
过 程 的 形式 化 描述 如 下 。 
令 uG—1.2. MRA N 个 事务 构成 的 数据 库 D 中 的 第 i 个 事务 ,D; 表示; 中 
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的 第 j XUL S EP iG — 1.2. NOR RC — 1.2. KO EEE W — [xs ], 使 得 
1 第 ;个 事务 属于 第 &A 个 事务 类 


一 (6.3) 
o 其 他 


Wij 
其 中 ,w; 具 有 属性 : 
k 
w; E€ {0,1} E Dlw;=1 (6.4) 
j=1 


AB k EHUD ce = Ga Cans Ca) HY XT AE 42S IF HE et PS 
掘 质量 ,类 中 心 cx 的 初始 值 可 以 设置 为 对 应 项 集中 包含 第 & 个 最 频繁 项 目的 某 个 随机 事 
务 。 这 样 可 以 使 K 个 初始 类 中 心 的 分 布 更 加 均匀 。 因 此 ,首先 扫描 原始 数据 库 得 到 所 有 
的 Top-k 频繁 项 目 。 
然后 计算 数据 库 中 其 他 事务 与 各 个 类 中 心 的 距离 ,根据 计算 结果 将 这 些 事务 指派 到 
最 相似 的 类 。 分 区 依据 如 下 : 
class(c,) = (t | ti E D, | ti N cr | Est: Æ ce} (6.5) 
je Le © [1.min sup—e, |N | TAE FAIRE Bd TEL. 9e iE. TESS HB si ee AS gi: ESURIL C 
H. PUE. 4 XS J FE ADI BE PL TEL s, 每 个 类 中 的 成 员 数 目 也 会 显著 减少 。 这 里 ,不 失 一 般 性 ， 
暂且 设置 e=1。 
类 内 距离 总 和 定义 为 同一 个 类 中 各 成 员 与 类 中 心 之 间 的 距离 之 和 : 
sw) = » 2 ya, sea (6. 6) 
RB ds ,cw ) 表 示 类 成 员 t IXH cy F Jaccard 距离 。 
聚 类 的 目标 就 是 找到 矩阵 WwW” 二 [wa ).fiif$ SC(W) 的 值 达到 最 小 化 , 即 
S(W*) = min{S(W))} (6.7) 
在 聚 类 过 程 中 ,一 个 很 重要 的 问题 是 找到 每 个 类 的 中 心 点 ,这 样 , 一 个 数据 点 与 离 它 
最 近 的 类 中 心 之 间 的 均 方 误差 才 得 以 最 小 化 。 传 统 的 K-means 聚 类 算法 提供 了 一 种 简 
单方 法 获得 聚 类 划分 的 近似 解决 方案 。 因 此 ,这 里 稍 加 改进 后 用 于 事务 数据 的 聚 类 过 程 。 
首先 ,随机 选取 一 个 包含 Top- 频繁 项 目的 事务 作为 第 & 个 类 的 初始 类 中 心 。 在 每 次 迭 
RE ,将 剩余 的 每 个 事务 指派 给 与 该 事务 距离 最 近 的 类 中 心 所 在 的 类 。 当 各 类 中 不 存在 
任何 事务 需要 进行 类 间 重 分 配 或 达到 迭代 次 数 上 界 时 , 聚 类 算法 结束 。 
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由 于 选用 了 优化 后 的 初始 类 中 心 ,改进 的 聚 类 算法 避免 了 传统 K- means 聚 类 中 的 主 
要 问题 , 即 : 若 示 正确 选择 初始 分 区 的 话 ,K-means 算法 会 因为 对 数据 敏感 而 导致 算法 中 
止 于 局 部 最 优 解 。 改 进 后 的 K- means 算法 见 算法 6. 1 。 

这 里 选取 K- means 算法 进行 聚 类 操作 ,是 因为 该 算法 的 可 扩展 性 良好 且 实现 简单 ， 
比较 适合 用 于 较 大 数据 库 ; 而 且 ,K-means 算法 较 快 的 收敛 速度 和 对 稀 琉 数据 的 可 适应 性 
使 得 该 算法 可 扩展 用 于 规模 更 大 的 容错 数据 库 。 

另外 需要 说 明 的 是 ,这 里 挖掘 的 是 Top- 近似 频繁 闭 模式 ,因此 ,可 以 作为 聚 类 参 
数 , 用 于 K-means 算法 划分 等 价 类 。 当 然 , 如 果 需 要 挖掘 近似 频繁 模式 的 完全 集合 ,可 以 
根据 存储 空间 的 大 小 和 所 需 挖 所 结果 的 精确 度 综合 确定 的 具体 取 值 。 总 的 来 说 ,k 取 
值 较 大 的 话 ,算法 计算 量 较 大 ,计算 的 精确 度 降低 ;k 取 值 较 小 的 话 ,得 到 的 挖掘 结果 较 
少 , 但 可 能 会 丢失 有 意义 的 近似 频繁 模式 。 





算法 6.1 改进 的 K-means 聚 类 算法 。 


输入 : 事务 数据 集 刀 , 用 户 指 定 的 聚 类 参数 ,最 小 支持 度 阔 值 min sup. 

输出 : K 个 事务 类 。 

1. 依次 选择 满足 如 下 条 件 的 K 个 事务 作为 K 个 初始 类 中 心 : 第 & 个 事务 包含 第 & 个 
最 频繁 项 目 , 然 而 不 包含 前 面 & 一 1 个 最 频繁 项 目 。 这 使 得 K 个 初始 类 中 心 均匀 
分 布 。 

2. 根据 式 (6.1) 和 (6. 2) ,将 数据 库 D 中 的 每 个 事务 指派 给 距离 最 近 的 类 。 

3. 根据 式 (6.5) 和 (6. 6) ,重新 计算 每 一 个 类 中 心 。 

4. 重复 上 述 步 又 2 和 步骤 3 ,直到 满足 任意 一 个 终止 条 件 。 








6.2.2 核 模式 产生 阶段 

已 经 证 明 ,容错 数据 库 中 的 支持 度 计 数 问题 是 NP-hard 问题 2220 。 因 此 , 比 上 述 问题 
更 为 困难 的 问题 , 即 在 容错 数据 库 中 挖掘 有 代表 性 的 近似 频繁 闭 模式 问题 也 一 定 是 NP- 
hard 问题 。 结 论 如 下 。 

定理 6.1 在 给 定 的 容错 数据 库 中 挖掘 有 代表 性 的 近似 频繁 闭 模式 问题 至 少 是 NP- 
hard 问题 ,除非 P— NP. 


第 6 章 在 传统 中 医药 数据 集中 挖掘 Top-k 近似 频繁 闭 模式 / 127 


这 促使 研究 人 员 探 索 有 效 的 近似 挖掘 算法 去 解决 当前 的 这 一 类 NP-hard 问题 。 在 现 

应 用 中 ,粗糙 集 理论 经 常用 于 分 析 不 确定 或 /和 不 完整 数据 ;而 且 , 粗 糙 集 理论 更 擅长 解 
ae A 这 些 问 题 与 近似 频繁 闭 模式 挖掘 过 
程 中 遇 到 的 情形 极为 相似 。 于 是 ,可 以 考虑 将 粗糙 集 理论 用 于 近似 频繁 闭 模式 挖掘 ,利用 
其 中 的 属性 约 简 技术 去 发 现 隐藏 在 类 中 的 初始 种 子 , 进 而 扩展 生成 候选 频繁 闭 模式 。 下 
面 简单 描述 应 用 粗糙 集 理论 为 各 等 价 类 生成 初始 种 子 的 过 程 。 

CD 将 源 数据 库 转 换 成 事务 信息 系统 D=(U ,A)。 

这 里 U 中 的 元 素 通常 称 为 对 象 , 对 应 事务 数据 库 中 的 事务 ,一 个 事务 也 可 以 描述 为 
它 支持 的 项 目 集合 ;A 中 的 元 素 通常 称 为 属性 ,对 应 事务 数据 库 中 的 项 目 , 每 个 项 目 描述 
eno Gp A OMA “信息 表 ” 是 描述 事务 信息 系统 的 最 简单 形式 ,表示 为 

二 维和 矩阵 ,其 中 每 行 对 应 事务 集合 U 中 的 一 个 成 员 , 每 列 代表 组 成 项 集 的 某 个 项 目 ， 
Nis 列 交叉 单元 以 二 进 制 数据 的 形式 描述 了 项 目 和 事务 (项 集 ) 之 间 的 关系 : 取 值 
为 1 表示 这 个 项 目 存在 于 指定 的 事务 中 ,而 取 值 为 0 意味 着 该 项 目 没有 出 现在 指定 事 
务 中 。 

通过 对 每 个 事务 添加 一 个 决策 属性 ,将 事务 信息 系统 D= (U,A) 扩 展 为 一 个 事务 决 
RK D'=(U,AU{dec)) ,其 中 dec 表示 决策 属性 , 且 满足 dec& A; 

在 粗糙 集 理论 中 ,决策 表 是 用 于 表示 信息 系统 的 一 种 常见 形式 ,通过 为 信息 表 分 别 指 
定 一 定数 量 的 条 件 属 性 和 几 个 决策 属性 构建 而 成 。 这 里 选择 每 一 行 中 的 所 有 项 目 ( 即 一 
条 事务 支持 的 所 有 项 目 ) 作 为 条 件 属 性 ,同时 设置 第 一 个 阶段 得 到 的 类 索引 作为 决策 属 
性 。 不 失 一 般 性 ,假设 决策 {dec} 的 域 Va. 取 值 范围 是 {1,2,…,d)。 那 么 ,决策 {dec} 确 定 
TEE U 的 一 个 划分 : 

U = class; U class; U … U classa, class, = (x € U:dec(x) = k} 

这 里 class, 是 全 集 U 的 第 & 个 决策 类 。 换 名 话说 ,可 以 通过 决策 属性 识别 决策 类 , 因 
为 正 是 通过 决策 属性 将 全 集 U = class; U class; U +++ U classa 划分 成 了 几 个 不 连续 的 类 
class, «class, ,*** «classa 

(2) 使 用 属性 约 简 生 成 核 模 式 。 

属性 约 简 是 粗糙 集 理论 中 的 核心 问题 。 找 到 一 个 数据 集 的 所 有 约 简 集 合 被 证 明 是 一 
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个 NP-hard 问题 。 因 此 ,需要 在 有 效 地 获得 约 简 集合 和 减少 计算 复杂 度 以 避免 “组 合 爆 


炸 ? 这 两 个 问题 之 间 全 面 权衡 ,找到 一 种 折 中 方案 。 


基于 第 一 阶段 的 聚 类 过 程 ,容错 数据 库 中 的 事务 已 被 划分 成 不 连续 的 事务 类 。 为 了 
有 效 处 理 信 息 表 中 的 二 进 制 数据 ,已 经 在 属性 约 简 阶 段 构建 了 事务 决策 表 。 下 面 , 用 实例 


描述 获得 核 模式 的 主要 思想 和 过 程 。 


例 6.1 


表 6.1 类 1 中 数据 集 的 二 进 制 表示 


项 


在 由 6 个 项 目 .22 条 事务 组 成 的 容错 数据 集中 ,第 一 阶段 的 聚 类 过 程 将 所 有 
事务 划分 为 3 个 事务 类 。 以 类 1 中 的 事务 为 例 ( 见 表 6. 1)。 





























经 过 第 一 阶段 的 转换 ,获得 事务 信息 系统 D=(U,A) ,通过 向 全 集 U 中 的 事务 添加 决 
策 属性 {dec} 构 建 事 务 决策 表 D'—(U AU {dec})。 此 例 中 ,U={Ui,Us,…,U1),A= (a. 
b.c«d) H. class; ={x€U: dec(x)=1)} ,相应 的 分 辨 矩阵 如 表 6. 2 所 示 。 


0 





表 6.2 类 1 的 分 辨 矩阵 





1 





1 











U, U: U; U, U; Us U; 
Ui 
U; bcd 
U; d bsesd 
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续 表 
Ui; U; U; Us Us Us U; 
U, a,b,d uvesd a,b 
U; c b cod a,b,c,d 
Us bod cod b a b.c.d 
U; asd a,b,c,d a b asc.d asb 























可 以 基于 分 辨 函数 找到 类 1 中 属性 (项 目 ) 的 约 简 集 和 /或 核 模式 。 
fus —0OVcVd) A(GDA(GaVbVd) AcA(GDVada)A^(aAaD 
A(bVcVd)A(VaVcV d AbA(V D A(aVbN cV d) 
ACa VD A CcVd) AbNAaN(laVbVcVd)^aAb 
A(QVceVd)A^(laVeVd) ^A(aVoD 
=d chba 
这 样 ,使 用 属性 约 简 技术 得 到 了 一 个 约 简 , 也 是 {fae,o,c,d} 的 核 模式 。 在 粗糙 集 理论 
中 ,一 个 约 简 就 是 一 个 足以 描述 相应 决策 属性 的 子 集 。 因 为 越 是 频繁 出 现 的 规则 应 该 越 
是 占据 主要 地 位 ,对 项 目 进行 约 简 有 利于 快速 丢弃 极 少 出 现 的 项 目 , 迅 速 找到 在 事务 数据 
库 中 最 频繁 出 现 的 项 目 。 这 里 将 每 一 个 约 简 看 作 一 个 初始 种 子 , 用 于 扩展 生成 候选 频繁 
模式 。 因 此 ,将 核 项 集 {a) 1) fc} Ad) B SCF ET BCS AL min. sup 进行 比较 之 后 ,可 
以 得 知 {a D ey 下 面 就 用 初始 种 子 {a ,b,c,d}) 构 建 等 价 类 , 然 
EC 2 xu. 
一 般 来 说 ,作为 所 有 约 简 项 的 交集 , 核 是 所 有 约 简 项 的 基础 ,同时 也 是 这 个 类 中 最 频 
繁 的 项 集 。 其 实 ,作为 最 频繁 出 现 的 项 集 , 核 模式 成 为 频繁 项 集 的 概率 非常 高 。 而 且 核 模 
式 总 是 真 频繁 项 集 ,即使 是 在 容错 数据 库 中 也 大 抵 如 此 。 





6.2.3 Top-k 近似 频繁 闭 模 式 挖掘 阶段 
属性 的 所 有 约 简 代表 了 原始 数据 集中 最 重要 的 信息 ,所 以 在 生成 近似 频繁 闭 模式 的 
过 程 中 , 约 简 集中 频繁 出 现 的 属性 (项 集 ) 比 原始 数据 集中 的 其 他 项 目 更 值得 关注 。 因 此 ， 
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第 三 个 阶段 使 用 所 有 的 约 简 作为 初始 种 子 , 将 原始 数据 集中 所 有 具有 代表 性 的 项 目 进行 
划分 ,构建 各 自 的 等 价 类 ,在 每 个 等 价 类 形成 的 " 格 ” 上 ,从 长 度 最 大 的 候选 模式 开始 , 逐 层 
挖掘 近似 频繁 闭 模式 。 

步骤 1 在 事务 信息 系统 中 对 条 件 属性 约 简 ,确定 每 个 格 上 包含 的 项 集 。 根 据 聚 类 
结果 , 当 且 仅 当 两 个 项 集 来 自 相 同 的 事务 类 时 ,它们 才 有 可 能 同属 于 一 个 等 价 类 ,这 里 以 
每 一 个 初始 种 子 为 基础 构建 一 个 格 。 图 6. 2 显示 以 表 6. 1 中 的 数据 集 为 依据 构建 候选 项 
集 的 格 。 





null:7 第 4 层 
"nd m 

a:5 b:4 c:5 d:4 第 3 层 

本 
ab:3 ac:3 ad:2 bc:3 bd:2 cd:4 第 2 层 
abc:2 abd:l acd:2 bcd:2 Ble 
= 
abcd:1 第 0 层 


图 6.2 依据 核 模式 生成 格 L 


步骤 2 在 每 个 等 价 类 上 自 底 向 上 逐 层 挖掘 近似 频繁 闭 模式 。 对 一 个 长 度 为 的 约 
简 来 说 ,在 支持 它 的 事务 中 可 以 允许 遗失 属性 值 0 的 个 数 是 [ke, | 这 样 ,此 格 中 需要 搜索 
的 扩展 空间 为 从 当前 层 开 始 向 上 最 多 Lke, 层 。 因 此 ,对 第 Lke, 层 事务 集合 中 的 元 素 依次 
进行 交 操作 ,得 到 项 集 的 支持 度 。 

例如 ,给 定 e=e=0.5, 挖 掘 过 程 从 格 工 PRK abcd) Ft. H Flee, L 
4X0.5 片 2, 需 要 依次 搜索 第 三 层 和 第 二 层 的 扩展 空间 。 在 进行 交 运 算计 算出 项 集 的 支 
持 度 后 ,发 现 没 有 比 {a,b,c,d}) 更 长 的 频繁 模式 。 这 时 ,经 过 闭合 性 检查 后 ,得 到 了 这 个 格 
上 的 近似 频繁 闭 模式 {a,b,c,d}。 

步骤 3 对 支持 度 小 于 阅 值 min_supXNX (1 一 e.) 的 候选 模式 实施 全 局 剪 枝 ,识别 出 
那些 不 满足 项 目 约束 el 的 候选 模式 。 此 外 ,也 可 以 运用 近似 频繁 模式 的 闭合 性 进一步 缩 


第 6 章 在 传统 中 医药 数据 集中 挖 据 Top-k 近似 频繁 闭 模式 / 131 


小 搜索 空间 。 

继续 步骤 2 中 的 示例 ,针对 模式 {a,5,c} 实 施 类 似 的 挖 扎 过 程 ,得 知 其 扩展 空间 只 有 
第 二 层 。 无 须 闭 合 性 检查 ,依据 文献 [226] 中 的 结论 ,可 以 认为 该 模式 是 不 闭合 的 。 依 次 
执行 下 去 ,完成 整个 挖掘 过 程 。 

总 的 来 说 ,粗糙 集 理论 中 的 属性 约 简 技 术 提供 了 一 种 查找 介 于 真 频繁 模式 和 近似 频 
繁 模式 之 间 的 近似 边界 的 简捷 方法 。 根 据 反 单调 性 ,首先 发 现 长 频繁 模式 ,然后 使 用 后 向 
剪 枝 技术 得 到 真 频繁 模式 。 而 且 , 在 给 定 参 数 6,、e。 和 min, sup 的 前 提 下 ,还 可 以 使 用 前 
向 容错 搜索 技术 挖掘 出 所 有 的 近似 频繁 闭 模式 。 





6.3 实验 结果 和 分 析 


本 节 展 示 新 的 Top-k 近似 频繁 闭 模式 挖掘 模型 应 用 于 传统 中 医药 数据 集 上 的 实 
验 结果 。 首 先 , 在 传统 中 医药 数据 集 上 运行 基于 支持 度 的 事务 聚 类 算法 ;接着 ,构建 
Mb 7 fii A FR BE BA AE AE F A BG GE XI TE DI UE DL 2 Dr] EC TZ 8 3 1 Of 43 Br AI ad E AR AS 
处 方 组 方 规律 ,这 是 实际 应 用 中 得 以 发 现 有 意义 ` 有 价值 的 中 医药 处 方 组 方 规律 以 及 
方剂 有 效 组 分 配伍 规律 的 关键 步骤 ;最 后 ,将 得 到 的 有 趣 Top 组 方 诉 诸 领域 专家 进 
行 深入 调研 。 

为 了 有 利于 将 新 模型 应 用 于 实际 中 医药 领域 ,这 里 所 有 的 算法 用 Java 实现 ,实验 环 
境 为 : 安装 64 位 Windows 7 操作 系统 的 主机 一 台 , 处 理 器 为 Intel core(TM) i5-2520M 
CPU 2.5GHz, 安 装 内 存 为 4.00GB RAM, 


6.3.1 基于 支持 度 的 聚 类 算法 性 能 分 析 

来 自 临床 实践 的 传统 中 医药 数据 已 经 成 为 现代 医学 重要 的 信息 来 源 之 一 。 首 先 ,从 
历史 典籍 资料 或 现代 临床 实践 中 获得 传统 医学 数据 ,根据 科研 需要 将 它们 从 原始 文本 形 
式 ( 见 图 6. 3) 转 换 成 数字 数据 ,并 以 记录 集合 的 形式 保存 在 处 方 数据 库 中 ( 见 图 6. 4» ,以 
便 为 下 一 步 的 信息 共享 提供 有 效 的 数据 平台 。 


132 /智能 数据 挖 据 一 一 面向 不 确定 数据 的 频繁 模式 





































HHH AP APSS SAAP 用 和 用 法 





FR HERA) 5 肝 硬 化 彩色 多 普 勒 超声 党 规 检查 1.000 130 — 0.0000 
FH CABS) + 肝 硬 化 超声 计算 机 图 文 报告 1.000 20 — 0.0000 
乙肝 肝 硬 化 肝 积 (湿热 草 结 型 ) 甘草 1000gkg 1.0000 g PRN 60.000 g 3.71 3.00009 ”水 前 服 
10009kg 10000g PRN 300.000 g 207 15.00009 “水 前 服 
乙肝 肝 硬 化 肝 积 〈 湿 热 萤 结 型 i0009kg 10000g PRN 600.000 g 36.3 30.0000 9 KAAR 
乙肝 肝 硬 化 肝 积 (湿热 草 结 型 ) AA 1000gkg 10000g PRN 120.000 g 47.86 6.0000 9 水 前 服 
乙肝 肝 硬 化 肝 积 (湿热 草 结 型 ) 车 前 草 1000gkg 10000g PRN 300.000 g 495 15.00009 RR 
乙肝 肝 硬 化 肝 积 ( Ium i000gkg 10000g PRN 60.000 g 945 3.00009 水 前 服 
CEL FAR CRANA) 1000gkg 1.00009 PRN 300.000 g 8.25 15.00009 ”水 前 服 
乙肝 肝 硬 化 AR CRANA) 1000gkg  1.0000g PRN 180.000 g 172.33 9.00009 KMAR 
1000gkg 1.00009 PRN 180.000 g 3.71 9.00009 水 前 服 
10009Kg 1.0000g PRN — 600.009 1236 3000009 KAJAR 
1000gkg 1.00009 PRN 180.000 g 1271 9.00009 水 前 服 
i0009kg 1.00009 PRN 600.000g 1236 30.000 g 水 前 服 
1000)kg 1.0000g PRN 180.000 g 10.4 9.00009 “水 前 服 
10009kg 1.00009 PRN — 2400009 18.86 — 1200009 KATAR 
i000gkg  10000g PRN 180.000 g 79.2 9.00009 水 前 服 
10009Kg 1.00009 日 一 剂 300.000g ”20.64 ”15.0000 g KATAR 
10009kg 1.00009 “日 一 剂 240.000 g 13.18 1200009 水 前 服 
i000gkg 1.00009 日 一 剂 300.000 g 1236  150000g 水 前 服 
10009kg 1.0000 g 日 一 剂 300.000 g 8.25 1500009 KATAR 
1000gkg 1.0000 g 日 一 剂 180.000 g 5.45 9.00009 水 前 服 
10009kg  10000g “日 一 剂 240.000 g 3.74  120000g ”水 前 服 
10009kg  1.0000g 日 一 剂 300.000 g 13.62 15.00009 KAJAR 
1000gkg 1.00009 “日 一 剂 180.000 g 7.2 9.00009 水 前 服 
i10009kg  10000g 日 一 剂 240.000 g 408 120000 9 KAAR 
10009kg  1.0000g 日 一 剂 300.000 g 75.9 15.00009 KAJAR 
乙肝 肝 硬 化 肝 积 《湿热 莉 结 型 ) i000gkg 1.0000g 日 一 剂 300.000 g 9.09 15,0000.9 KAAR 
乙肝 肝 硬 化 肝 积 《湿热 东 结 型 i000gkg 1.00009 日 一 剂 300.000 g 3.3 15.00009 KAAR 
1000gkg 1.00009 日 一 剂 180.0009 32.18 9.00009 水 前 服 
1000gkg 1.00009 ”日 一 剂 300.000 g 14.43 15.00009 KAJAR 
乙肝 肝 硬 化 于 积 〈 i000gkg 1.00009 日 一 剂 300.000 g 9.42  150000g ”水 前 服 
乙肝 肝 硬 化 时 积 《 i000gkg 1.0000g 日 一 剂 300.000 g 3.3 1500009 水 前 服 
) BR i000gkg 1.00009 日 一 剂 180.000 g 17.33 9.00009 KAJAR 
) EARPPRE 2somg*25fi #### mg BID 75.000 $} — 7728 250.0000 mg P.O 
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图 6.3 文本 形式 的 原始 中 医药 处 方 数据 


20 116 63 25 112 24 105 71 26 
50 26 106 32 27 70 62 


22 114 33 27 


30 47 92 67 8 


98 8 1 20 55 97 96 


74 10 


30 19 27 


77 69 


114 98 


32 





图 6.4 转换 后 的 中 医药 处 方 事务 数据 集 
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实验 数据 集中 包含 633 条 关于 肺病 和 肝病 的 处 方 数 据 , 它 们 源 于 历史 临床 数据 并 保 
存在 传统 中 医药 数据 库 中 。 每 个 处 方 以 记录 的 形式 列举 了 患者 呈现 的 中 医 证 候 、 医 生 的 
临床 诊断 以 及 中 医药 方 包含 的 所 有 中 草药 组 分 等 。 为 了 找到 在 同类 处 方 中 通常 使 用 的 中 
药 组 对 ,从 中 发 现 新 的 有 价值 的 核心 组 对 ,这 里 应 用 基于 支持 度 的 聚 类 算法 根据 不 同 证 候 
将 数据 集 划 分 为 个 处 方 类 。 

为 了 获得 正确 的 聚 类 ,首先 将 每 一 个 处 方 转换 成 一 条 事务 。 这 样 ,中 药 处 方 中 的 每 一 
味 中 草药 对 应 成 为 事务 中 的 一 个 项 目 。 为 了 解决 中 草药 命名 不 规范 ,不一致 等 问题 ,中 药 
数据 根据 国家 标准 化 管理 委员 会 2015 年 批准 发 布 的 (中药 方剂 编码 规则 及 编码 》(GB/T 
31773 一 2015) 和 《中 药 编码 规则 及 编码 》(GB/T 31774 一 2015) 进 行规 范 化 和 标准 化 ,统一 
标记 为 中 医 编号 ID 的 形式 ( 见 图 6.4)。 这 样 就 形成 一 个 包含 633 条 事务 ,每 一 事务 仅 包 
含 若干 项 目的 中 医药 处 方 事务 数据 集 。 数 据 集中 每 个 项 目的 分 布 都 是 杂乱 无 序 的 ,医学 
工作 者 很 难 辨 别 出 可 能 有 价值 的 知识 ( 见 图 6.5). 
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图 6.5 聚 类 前 的 传统 中 医药 事务 数据 集 





根据 临床 研究 的 实际 情况 ,k 值 设置 为 2, 然后 在 ID 转换 后 的 中 医药 数据 集 上 实施 聚 类 
算法 ,得 到 两 个 事务 类 。 将 肺病 类 中 的 数据 作为 实验 结果 示例 显示 在 图 6.6 中 。 
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按照 中 草药 在 处 方 数据 集中 出 现 比 率 的 大 小 顺序 排列 并 标识 ,所 有 中 药 组 分 以 不 同 
的 形状 展现 在 图 6.6 中 。 可 以 很 直观 地 看 到 ,在 大 多 数 肺病 中 最 频繁 出 现 的 中 草药 很 明 
显 地 累积 并 呈现 在 图 6. 6 的 左下 角 区 域 , 它 们 形成 了 一 片 矩形 区 域 。 根 据 中 草药 与 中 医 
i ID 的 对 应 关系 ,可 以 得 到 这 些 频 繁 出 现 的 中 药 组 分 。 

可 能 组 方 1: 王 不 留 行 、 暗 衣 、 仙 人 头 、 大 腹 皮 、 砂 仁 等 

可 能 组 方 2: AER JEEN RBS ARS ARE LPS I STI E 

可 能 组 方 3: 水 红 花 子 、 泽 兰 、 山 甲 珠 、 桃 仁 、 赤 小 豆 等 

可 能 组 方 4: 英 陈 、 田 基 黄 板蓝根、 郁 金 . 柴 胡 等 

可 能 组 方 5: Se UAR AE RD AAR AE 

可 能 组 方 6: 柴 胡 白光 .苍术 ED 

这 些 都 是 比较 典型 的 肺病 治疗 组 方 中 的 部 分 组 分 ,其 中 包含 着 大 量 的 中 医 协定 方 。 
也 就 是 说 ,这 是 一 般 常 识 性 的 处 方 组 分 ,对 现代 中 医 新 药 特 药 的 研发 几乎 不 具有 显著 现实 
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意义 ,因为 几乎 每 一 位 医生 都 可 能 在 普通 的 中 医药 文献 中 看 到 它们 。 实 际 上 ,最 具 研 究 价 
值 的 是 紧 挨 着 一 般 常识 处 方 组 分 的 那 一 部 分 , 即 因 为 处 方 数据 集中 不 确定 数据 特征 的 影 
响 而 表现 为 近似 频繁 模式 的 那些 处 方 组 分 。 因 此 ,根据 实际 中 医 应 用 ,挖掘 出 有 意义 、 有 
实用 价值 的 近似 频繁 模式 是 该 领域 的 研究 重点 。 


6.3.2 Top-k 近似 频繁 闭 模式 挖掘 算法 性 能 分 析 

在 传统 中 医药 研究 中 ,对 数据 进行 统计 分 析 常 用 的 商业 软件 是 SPSS Clementine, 
其 中 主要 使 用 经 典 的 Apriori 算 法 进行 频繁 模式 完整 集合 的 挖掘 。 然 而 ,传统 的 频繁 
模式 挖 据 算法 在 数据 分 析 处 理 任务 中 因 参 数 min_sup 取 值 的 选取 问题 经 常 陷 入 两 难 
的 境地 。 

CD 在 挖掘 算法 中 ,一 旦 设置 的 最 小 支持 度 阅 值 min. sup 远 小 于 遵循 综合 证 候 和 临 
床 诊断 的 实际 经 验 值 , 则 会 导致 大 量 频繁 模式 喷 薄 涌现 ,其 中 少量 有 意义 的 信息 就 会 淹没 
在 这 些 中 医药 常识 的 海洋 中 。 

(2) 相反 ,如 果 阔 值 min. sup 设置 得 略 高 ,受累 于 待 处 理 的 不 精确 数据 环境 ,现存 的 
传统 数据 挖掘 工具 (如 SPSS Clementine) 很 难 从 大 量 的 频繁 片段 中 恢复 出 真正 的 具有 实 
际 意义 的 长 频繁 模式 。 

为 此 ,在 传统 中 医药 数据 集 (TCM) 上 首先 运行 传统 的 频繁 模式 挖掘 算法 ,正如 预料 ， 
这 里 得 到 了 大 量 处 方 中 常 见 的 短 频繁 模式 。 然 而 ,出 乎 预料 的 是 ,在 这 样 一 个 十 分 明显 的 
稠密 数据 集中 ,用 数据 挖掘 工具 SPSS Clementine 获得 的 是 显著 “稀疏 ”的 长 频繁 模式 。 
况且 ,这 样 的 挖掘 结果 与 当前 已 知 的 中 医 规律 或 实际 临床 诊疗 结果 也 不 一 致 ,甚至 有 点 冲 
突 。 显 然 ,传统 的 频繁 模式 挖掘 算法 在 处 理 容错 中 医药 数据 库 时 失去 了 原 有 的 优势 ,在 发 
现 近 似 组 方 规律 和 处 方 中 的 核心 组 分 时 存在 障碍 ,这 可 能 源 于 算法 组 织 结 构 自 身 的 局 
限 性 。 

为 了 得 到 较 合 理 的 挖掘 结果 ,使 用 相同 的 min_sup ,执行 近似 频繁 模式 挖掘 过 程 并 发 
现 了 大 量 的 近似 频繁 模式 ( 见 图 6.7 一 图 6. 10) 。 然 而 ,数量 如 此 庞大 的 结果 数据 干扰 了 
人 们 的 注意 ,使 中 医 专家 无 法 把 全 部 精力 集中 在 那些 最 有 临床 意义 、 最 值得 分 析 的 挖掘 结 
果 上 。 
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图 6.8 传统 中 医药 数据 集 类 1 中 的 近似 闭 频繁 模式 
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图 6.9 传统 中 医药 数据 集 类 2 中 的 近似 频繁 模式 
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图 6.10 传统 中 医药 数据 集 类 2 中 的 近似 闭 频繁 模式 





最 后 ,运行 基于 粗糙 集 的 近似 频繁 闭 模式 挖掘 算法 。 毫 无 疑问 ,该 算法 在 挖掘 质量 上 
赢得 了 势不可挡 的 优势 。 考 虑 到 历史 处 方 中 可 能 存在 的 潜在 错误 ,基于 粗糙 集 的 新 算法 
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发 现 了 容错 频繁 项 集 的 精简 版 本 , 即 近似 频繁 闭 项 集 ,并 且 挖 气 结 果 中 伪 频 繁 项 集 是 可 控 
。 这 样 的 挖掘 结果 便于 提交 给 中 医药 专家 和 专业 人 士 做 进一步 的 分 析 和 检验 。 


6.3.3 实验 结果 分 析 

为 了 检验 基于 粗糙 集 理论 的 Top 近似 频繁 闭 模式 挖掘 算法 的 运行 效果 ,分 析 该 算 
法 在 传统 中 医药 数据 挖掘 领域 的 实际 应 用 价值 ,需要 将 试验 结果 提交 给 中 医药 专家 和 专 
业 工 作者 做 进一步 分 析 。 

在 对 实验 结果 进行 数据 分 析 时 ,专业 人 员 发 现在 肺病 处 方 中 有 几 味 * 郁 证 ?中 草药 构 
成 了 频繁 闭 模式 。 考 虑 到 它们 来 自 肺病 所 在 的 处 方 类 这 一 事实 ,一 组 分 析 人 员 认 为 这 是 
一 个 明显 错误 。 因 为 根据 中 医 * 肝 郁 气 滞 ? 理 论 ,这 几 味 中 草药 当 属 肝病 验方 。 于 是 ,这 个 
频繁 模式 被 看 作伪 正 例 而 剔除 。 然 而 , 另 一 组 分 析 人 员 认 为 该 错误 ?模式 在 针对 慢 阻 肺 
合并 抑郁 症 的 病 患 治疗 中 颇具 临床 实用 价值 。 因 为 这 类 频繁 模式 正 是 依据 中 医 理论 中 的 
“ 肺 主 翡 ? 思 想 ,表现 出 慢 阻 肺 与 合并 抑郁 症 之 间 具 有 关联 性 的 良好 证 据 。 实 际 上 ,这 一 
观点 与 GOLD 2016 年 度 报告 2s9 里 的 结论 也 是 相 吻 合 的 。 这 一 有 趣 的 发 现 ,姑且 可 以 
看 作 一 个 实例 ,间接 佐证 了 新 算法 用 于 中 医药 处 方 数据 挖掘 的 合理 性 和 有 效 性 。 


6.4 本 章 小 结 


在 实际 应 用 中 ,为 了 将 用 户 从 设置 微妙 参数 值 的 沉重 负担 中 解放 出 来 ,并 且 为 用 户 提 
供 更 好 的 灵活 性 和 实用 性 ,本 章 提出 了 适用 于 容错 数据 集 的 Top- 近似 频繁 闭 模式 挖掘 
模型 ,主要 由 基于 支持 度 的 聚 类 基于 粗糙 集 的 核 模 式 产 生 和 近似 频繁 闭 模式 挖掘 三 部 分 组 
成 。 在 传统 中 医药 数据 集 上 的 实验 结果 显示 了 该 模型 在 中 医药 应 用 领域 的 合理 性 和 有 
效 性 。 

首先 ,本 章 列举 了 目前 容错 数据 库 中 频繁 模式 挖掘 面临 的 主要 问题 ,综述 了 目前 主要 
的 近似 频繁 模式 挖掘 算法 ,分 析 了 其 优 缺 点 。 然 后 ,本 章 重点 对 基于 粗糙 集 理论 的 Top-k 
近似 频繁 闭 模 式 挖掘 模型 进行 了 详细 阐述 。 最 后 ,在 实际 的 传统 中 医药 数据 集 上 ,使 用 不 
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同 的 频繁 模式 挖掘 方法 实施 挖掘 任务 ,并 对 挖掘 性 能 和 挖掘 质量 进行 分 析 比 较 , 结 果 表 
HJ: 在 不 需要 提供 敏感 参数 的 前 提 下 ,新 模型 能 够 以 精简 的 形式 挖掘 出 具有 实际 意义 和 
应 用 价值 的 近似 频繁 闭 模式 ,满足 传统 中 医药 数据 集 的 挖掘 要 求 。 除 了 进行 方剂 组 分 规 
律 和 核心 组 对 分 析 应 用 之 外 ,本 方法 还 可 以 广泛 应 用 于 传统 中 医药 数据 环境 ,协助 进行 新 
药 开发 ,疾病 早期 诊断 和 未 病 预 测 等 问题 的 解决 。 


频繁 模式 挖掘 是 模式 识别 .机 器 学 习 和 数据 挖掘 中 的 重要 研究 方向 之 一 ,其 具体 问题 
在 智能 营销 在 线 销售 、 医 学 诊断 .生物 标志 物 检 测 以 及 个 性 化 推荐 等 现实 应 用 场景 中 广 
泛 存在 。 传 统 的 频繁 模式 挖掘 方法 在 确定 数据 库 上 表现 出 令 人 满意 的 效果 。 然 而 ,在 实 
际 应 用 中 ,由 于 受到 主观 原因 的 影响 或 客观 条 件 的 限制 ,致使 采集 到 的 数据 往往 存在 着 不 
确定 性 ,不 完整 性 和 不 精确 性 。 传 统 的 频繁 模式 挖掘 算法 无 法 正确 处 理 这 些 不 确定 数据 ， 
表现 为 : 挖掘 算法 的 性 能 严重 下 降 ,挖掘 结果 无 法 反映 实际 情况 等 。 因 此 ,深入 研究 面向 
不 确定 数据 的 频繁 模式 挖掘 技术 具有 非常 重要 的 实际 意义 和 学 术 价 值 。 


7.1 本 书 总 结 


本 书 主要 针对 两 类 典型 的 不 确定 数据 ( 即 概率 数据 和 容错 数据 ) 进 行 概率 频繁 模式 挖 
掘 和 近似 频繁 模式 挖掘 的 研究 ,并 应 用 于 不 确定 的 传统 中 医药 数据 环境 下 ,从 主观 不 确定 
性 和 客观 不 确定 性 两 个 方面 提出 相应 的 解决 方案 ,实现 基于 不 确定 数据 的 高 效 频繁 模式 
挖掘 ,并 通过 实验 验证 了 它们 的 有 效 性 和 实用 性 。 现 将 本 书 的 主要 工作 介绍 如 下 。 

(1) 针对 实际 应 用 中 存在 的 各 种 不 确定 数据 ,综述 了 目前 常用 的 不 确定 性 数据 模型 
和 主要 的 不 确定 频繁 模式 挖掘 算法 ,包括 不 确定 频繁 项 集 挖掘 、 不 确定 序列 模式 挖掘 、 不 
确定 频繁 子 图 模式 挖掘 ,不 确定 高 效用 项 集 挖 掘 以 及 不 确定 加 权 频 繁 项 集 挖 气 技 术 ,分 析 
了 数据 不 确定 性 产生 的 原因 ,总 结 了 各 种 不 确定 数据 模型 ,指出 了 各 种 不 确定 频繁 模式 挖 
握 技 术 的 优 缺 点 ,并 预测 了 不 确定 频繁 模式 挖掘 研究 的 可 能 发 展 方向 。 

(2) 针对 不 确定 数据 的 垂直 数据 格式 ,提出 了 一 种 基于 Eclat 框架 的 概率 频繁 项 集 精 
确 挖掘 算法 (UBEclat) 。 首 先 ,基于 传统 的 Eclat 框架 ,设计 了 一 种 旨 在 提高 算法 执行 效 
率 的 双向 处 理 策略 ;进而 ,基于 概率 频 度 的 定义 ,针对 垂直 数据 格式 提出 了 概率 频繁 项 集 
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精确 挖掘 算法 。 在 基准 数据 集 和 真实 数据 集 上 的 对 比 实验 表明 ,UBEclat 算法 能 够 依据 
支持 度 的 概率 分 布 ,准确 挖掘 出 所 有 概率 频繁 项 集 。 这 为 有 效 解 决 精确 挖掘 概率 频繁 项 
集 问题 提供 了 新 的 思路 。 

(3) 针对 概率 频繁 项 集 精确 挖掘 算 法 执行 效率 较 低 、 运 行 时 间 过 长 的 问题 ,基于 可 能 性 
世界 理论 ,提出 了 一 种 高 效 的 概率 频繁 项 集 近 似 挖掘 算法 (NDUEclat)。NDUEclat 算法 采 
用 分 而 治之 的 方法 ,应 用 大 数 定律 优化 了 挖掘 过 程 ,改进 了 频繁 项 集 挖掘 的 运行 效率 。 在 基 
准 数据 集 和 真实 数据 集 上 的 多 组 对 比 实验 也 验证 了 该 算法 良好 的 挖掘 效果 。 目 前 ,这 也 是 第 
一 个 基于 支持 度 的 概率 分 布 、, 在 垂直 数据 格式 的 不 确定 数据 库 中 高 效 挖掘 概率 频繁 项 集 的 近 
似 算法 。 

(A) 针对 NP-hard 类 的 近似 频繁 模式 挖掘 问题 ,探索 粗糙 集 理论 在 容错 数据 挖掘 中 
的 应 用 ,提出 了 一 种 将 容错 数据 库 映 射 为 事务 信息 系统 .基于 粗糙 集 理 论 挖 掘 近似 频 繁 模 
式 的 新 方法 。 依 据 挖掘 出 的 频繁 项 目 确定 决策 表 中 的 决策 属性 ;基于 粗糙 集 理论 中 下 近 
似 和 上 近似 概念 ,确定 近似 频繁 模式 的 匹配 程度 。 在 基准 数据 集 和 真实 数据 集 上 进行 了 
对 比 实验 ,证 实 了 该 方法 在 挖掘 的 准确 率 指标 上 , 比 以 往 方法 有 更 好 的 性 能 表现 。 显 然 ， 
基于 粗糙 集 理论 的 近似 频繁 模式 挖掘 方法 为 有 效 解 决 实际 应 用 中 的 容错 频繁 模式 挖掘 问 
题 提 供 了 新 的 思路 。 

(5) 以 提高 挖掘 结果 的 真实 可 用 性 ,解决 中 医药 应 用 领域 中 的 实际 问题 为 目的 ,针对 
容错 数据 库 中 频繁 模式 挖掘 问题 研究 了 粗糙 集 理论 ,提出 了 一 种 挖掘 Top 近似 频繁 闭 
模式 的 新 模型 。 该 模型 主要 由 三 部 分 组 成 : 用 聚 类 算法 完成 事务 类 的 划分 ;对 同一 类 中 的 
事务 依据 粗糙 集 理 论 进 行 属性 约 简 生成 核 模式 ;将 核 模 式 作为 初始 种 子 构建 “ 格 ”, 用 分 层 挖 
据 的 方法 搜索 近似 频繁 闭 模式 。 最 后 ,将 该 模型 应 用 于 传统 中 医药 数据 集 。 实 验 结果 表明 ， 
新 模型 可 以 更 精准 地 表达 近似 频繁 模式 ,有 利于 实现 基于 中 医 诊疗 应 用 的 知识 发 现 。 


7.2 FRE 


随 着 新 兴 应 用 的 不 断 涌现 ,频繁 模式 挖掘 问题 涉及 的 领域 越 来 越 广泛 和 深入 , 受 时 
间 、 研 究 条 件 所 限 ,本 书 的 很 多 研究 工作 有 待 进 一 步 扩展 和 提高 。 今 后 将 在 以 下 几 个 方面 
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进一步 深入 研究 。 

(1) 本 书 针对 不 确定 数据 环境 下 的 频繁 模式 挖 握 方法 进行 研究 并 提出 了 几 种 算法 和 
模型 ,并 在 实验 中 证 实 了 它们 的 有 效 性 。 然 而 ,这 些 方 法 在 不 同 程度 上 存在 着 一 定 缺陷 。 
例如 ,双向 排序 策略 在 某 些 特定 数据 集 上 并 没有 表现 出 明显 的 性 能 改善 ;基于 粗糙 集 理论 
的 频繁 模式 挖掘 模型 在 一 定 程 度 上 提高 了 挖掘 结果 的 准确 率 , 但 没有 给 算法 的 执行 效率 
带 来 显著 优势 。 因 此 ,这 些 方法 在 中 医药 诊疗 领域 的 应 用 范围 和 应 用 力度 存在 着 一 定 的 
局 限 性 。 接 下 来 的 研究 工作 中 ,在 提高 处 方 类 识别 率 的 前 提 下 ,有 必要 设计 更 适用 的 频繁 
模式 挖掘 算法 保证 整体 应 用 效果 。 此 外 ,本 书 使 用 的 中 医药 数据 集 还 不 够 丰富 ,与 当前 中 
医药 数据 库 的 实际 情况 具有 一 定 的 差别 ,因此 ,需要 继续 寻找 更 全 更 新 的 实验 数据 集 , 从 
中 提取 出 新 的 特征 ,以 提高 在 实际 中 医药 诊疗 应 用 环境 中 的 检测 能 力 ,协助 新 药 开发 、 疾 
病 早期 诊断 和 未 病 预 测 等 ,这 会 是 更 具 实 际 应 用 价值 的 研究 方向 。 

(2) 为 了 直观 地 反映 机 体 的 病理 损害 程度 ,现代 中 医 将 传统 中 医药 学 中 “ 因 人 而 异 ” 
的 特点 和 “ 同 身 寸 "的 思想 融合 ,提出 “ 致 病 当 量 ” 的 概念 ,并 贯穿 于 整个 诊疗 过 程 之 中 。 因 
此 ,在 数据 挖掘 过 程 中 体现 这 一 概念 ,就 需要 设计 出 更 适用 的 频繁 模式 挖掘 方法 2 ,弥补 
中 医学 缺乏 定量 精确 性 .认识 停留 在 经 验 科 学 层面 的 不 足 。2016 年 ,Liu 等 在 文献 [155] 
中 首次 提出 两 种 在 不 确定 数据 环境 下 挖掘 高 效用 项 集 的 有 效 算 法 。 其 中 ,PHULUP 算 
法 适用 于 事务 不 确定 数据 模型 , 它 采 用 生成 -检测 框架 , 逐 层 挖掘 具有 高 存在 概率 的 高 效 
用 项 集 ;PHUTlist 算法 采用 表 结构 和 集合 枚 举 树 直 接 挖掘 高 效用 项 集 而 无 须 产 生 候选 项 
集 。 这 两 种 算法 为 探索 “ 致 病 当量 ”概念 在 频繁 模式 挖掘 中 的 描述 问题 带 来 了 电光。 在 接 
下 来 的 工作 中 ,研究 内 容 之 一 就 是 探索 并 解决 “ 致 病 当 量 ” 概 念 在 频繁 模式 挖掘 中 的 描述 ， 
为 挖掘 和 发 扬中 医药 学 精华 提供 研究 思路 。 

(3) 在 中 医药 诊疗 应 用 中 ,一 个 重要 优势 就 是 中 医学 提倡 和 推崇 “ 治 未 病 ”。 为 了 有 助 
于 在 临床 上 达成 这 一 目的 ,后 续 研 究 会 探索 使 用 频繁 模式 挖掘 算法 发 现 各 致 病因 素 之 间 的 
KEK, 2016 年 ,文献 [170] 第 一 次 提出 了 在 不 确定 数据 中 挖掘 模式 间 亲 密 关系 的 加 权 频 
繁 项 集 挖掘 方法 , 即 WUIPM 算法 。 采 用 树 存储 结构 , WUIPM 算法 借助 更 多 度量 参数 描述 
不 确定 数据 与 传统 事务 数据 在 语义 和 计算 上 的 差异 。 这 为 在 中 医药 数据 库 中 描述 烦 元 复杂 
的 致 病因 素 、 各 因素 间 相 互 交 杂 的 关联 提供 了 新 的 思路 。 总 之 ,在 中 医 诊疗 应 用 中 ,发 现 致 
病因 素 之 间 的 关系 ,为 治疗 未 病 提供 思路 和 理论 支持 也 是 颇具 学 术 价 值 的 研究 方向 。 
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